Entro il 2017, il 50% delle aziende assumerà un Chief Data Officer quale responsabile della qualità e del governo dei dati aziendali (data governance) secondo Gartner. La data governance si occupa di questi aspetti:
- gestire il catalogo dei metadati per ottenere informazioni leggibili a partire da grandi volumi di dati grezzi: creare ordine
- mettere in sicurezza i dati attivando soluzioni informatiche per loro protezione (compliance): capire chi li può usare e per farne cosa
- tracciare le attività effettuate sui dati (auditing): capire quando, come, perché, dove e da chi vengono utilizzati
- mettere in opera strumenti per la visualizzazione della provenienza dei dati e delle loro trasformazioni (data provenance e lineage): individuare le fonti, gli algoritmi di trasformazione e facilitarne l’interpretazione dei risultati
- attivare tutte le necessarie logiche di data quality: migliorare i dati.
La gestione è, pertanto, il fattore critico di successo di un progetto che impatta su grandi volumi di dati.
Dall’anarchia alla governance
Abbiamo assistito ad una fase di entusiasmo scaturita dalla possibilità di accedere ad una grande mole di dati pubblicamente disponibili in modo istantaneo e senza alcun vincolo posto da una loro preventiva certificazione. Non essendo noto a priori il loro significato, c’era comunque l’aspettativa di poterne derivare un significato recondito grazie ad una maggiore libertà d’interpretazione. Si è pensato che la nuova figura professionale del Data Scientist si facesse guidare dai dati stessi per ottenerne una comprensione profonda, tramite l’applicazione di algoritmi sofisticati, sfruttando la potenza di calcolo fornita dalle piattaforme big data e dalla loro capacità di raccolta e correlazione di informazioni.
Dopo una prima fase di effervescenza sia tecnologica che nelle tecniche di analisi, abbiamo assistito al consolidamento della tecnologia e al ridimensionamento di questo approccio analitico puramente euristico alla ricerca del valore di business. Si è infatti capito che nessuna analisi accurata e approfondita può essere effettuata senza avere piena padronanza e competenza sui dati.
I dati vanno meta-descritti e catalogati al fine di conoscerne l’intrinseco significato di business, oltre a poterne valutare la loro effettiva possibilità di utilizzo per le analisi, senza incappare in problemi di privacy e data protection. Il processo di apprendimento dei dati aziendali deve avvenire grazie ad uno scambio intenso e continuo con gli esperti di dominio e col business. Contemporaneamente è necessario compiere uno sforzo per regolamentare i dati esterni e definirne le regole di utilizzo.
Data Protection e le nuove normative
Il tema della nuova normativa europea GDPR (General Data Protection Regulation) sta suscitando grande interesse. A prescindere dalla modalità utilizzata, questo regolamento si applica a qualsiasi organizzazione che raccolga dati personali di residenti dell’Unione Europea, indipendentemente da dove questi vengano conservati. Viene sancito, ad esempio, l’obbligo per le aziende di garantire la notifica di eventuali violazioni dei dati in tempi brevi (entro 72 ore), la “privacy by design” (ovvero una progettazione delle soluzioni IT che tengano già in considerazione l’aspetto della gestione dei dati sensibili) e il famoso diritto all’oblio. Questo comporta un massiccio utilizzo di software per la gestione della sicurezza, la cifratura , il mascheramento dei dati, la pseudo-anonimizzazione e altre attività ancora.
Le tecniche di trattamento dei dati che tali software consentono devono essere applicate in modo appropriato, senza interferire con il successivo utilizzo dei dati trattati nelle svariate modalità di analisi (ad esempio: come posso usare un dato mascherato nelle mie analisi?).
A partire dal 2018, anche in ambito big data, le organizzazioni dovranno garantire la conformità alle norme tramite apposite misure di governance che includano documentazione dettagliata, registrazione e valutazione continua del rischio.
Non solo tanti dati, ma tanti tipi di utenti
Abbiamo già accennato a due nuove figure professionali che entrano in gioco in questo scenario: il Data Scientist e il Chief Data Officer, ma la varietà degli utenti di una piattaforma big data non si esaurisce qui.
Altre categorie di utenti sono gli analisti, i professionisti IT con competenze su diversi strumenti big data, sia dal punto di vista applicativo che sistemistico (ad esempio, per la corretta gestione del cluster in cui sono immagazzinate le informazioni), e gli utenti business. Per ciasuna categoria i comportamenti di accesso ai dati vanno descritti, monitorati e talvolta proibiti.
Per aumentare la conoscenza del business sul business (“strech competency” come apostrofa Forrester) e migliorare il decision-making, gli utenti aziendali devono avere accesso ai dati grezzi (non puliti e pre-aggregati), per trarre da questi il maggior numero possibile di informazioni utili alla loro attività.
Le operazioni sui dati eseguite dai Data Scientist, che per loro mandato agiscono in maniera esplorativa e cercano correlazioni e valori nascosti (data mining), possono comportare operazioni molto onerose a carico della piattaforma tecnologica, così come possono incidere sulle regole predefinite di accesso al dato. Pensiamo all’aggregazione di dataset di diversa origine con differenti politiche di accesso: come stabilire le policy sul dataset risultante? Quali conflitti entrano in gioco? Chi può dirimere eventuali contenziosi sui dati?
Il giusto compromesso va prima di tutto pensato, poi condiviso ed infine attuato mediante strumenti informatici ad hoc.
Il ruolo del business
Da un punto di vista organizzativo/culturale, non sono poi pochi i problemi che intervengono sulla proprietà dei dati. Come abbiamo detto, mettere a fattor comune i dati aziendali (breaking data silos), può comportare la perdita dell’ownership (proprietà del dato) ingenerando problemi di sicurezza e compliance.
Un forte coinvolgimento del business va quindi attuato fin da subito per stabilire le regole e colmare le problematiche di questa natura con opportune linee guida.
Citando nuovamente Forrester, la data governance, oltre a supportare le tecnologie e i processi, deve garantire la qualità del dato, l’accuratezza, la consistenza e l’usabilità.
Dal momento che i big data offrono una vasta gamma di tecnologie per la gestione di dati e processi, a cui si aggiungono tecnologie specifiche per la data governance, è importante sottolineare che il tema resta squisitamente appannaggio del business, che non deve delegare all’IT il governo dei dati, ma deve tenere salde le redini di tale gestione.
Il pericolo di lasciare che la complessità tecnologica, unita alla difficoltà di conciliare linguaggi diversi tra business e IT, offuschi la reale problematica di governance è forte, ma è necessario far presente che è compito del business individuare le priorità e collaborare con l’IT per individuare i modi opportuni per trarre beneficio dall’utilizzo dei dati.
Monica Franceschini