La Data Science – Scienza dei Dati – è un termine che da un paio d’anni è in uso sia in ambiente scientifico che industriale, accanto a quello dei Big Data e del Data Scientist. Ad Ottobre 2012 un articolo su Harward Business Review, di T.H. Davenport e D.J.Patil, definisce quello del Data Scientist come il lavoro più sexy del 21° secolo: il secondo dei due autori era, all’epoca, senior Data Scientist di LinkedIn. La questione è abbastanza semplice, in un mondo lanciato verso l’era digitale, dove tutto (dai biglietti aerei, il traffico della rete mobile, gli acquisti, i libri e le notizie, fino ai sensori nelle case e sulle strade – inclusi quelli dentro le auto) è una sorgente di dati digitali, la professionalità di colui (o colei) in grado di acquisirli, gestirli analizzarli e, infine, creare valore da essi sarà quella che più di tutte sarà ambita nel mondo lavorativo. Già oggi, nelle aziende che vivono di business digitale, il ruolo di Data Scientist è collocato nella parte alta della piramide di comando e riporta direttamente al CEO.
La capacità di estrarre valore dai dati non è solo una necessità delle industrie: anche in ambito governativo è ormai noto che alle elezioni del 2012 la vittoria di Obama per il suo secondo mandato fu ottenuta anche, e soprattutto, grazie all’uso specifico di tecniche di analisi dei data degli elettori (dal web, dai social network, ecc.) applicate alle campagne marketing da un allora non conosciuto analista, Dan Wagner, che riuscì ad identificare in modo nuovo gli elettori e fornire elementi utili ad indirizzare al meglio le azioni di propaganda. Lo stesso Obama nel 2015 chiamò DJ. Patil a ricoprire – per la prima volta nella storia degli Stati Uniti d’America – il ruolo di Chief Data Scientist per offrire nuove informazioni sullo stato dell’Unione tramite il sito data.gov, sia all’amministrazione che ai cittadini.
Con Big Data si tende ad identificare specificatamente quegli elementi ingegneristici legati alle dimensioni, varietà e velocità di produzione dei dati digitali per cui le tecnologie note non sono più sufficienti; dal 2015 si fa strada l’idea che nell’economia digitale del 21° secolo ci sarà bisogno anche e soprattutto di una rivisitazione e ristrutturazione delle conoscenze di base e delle competenze professionali, tanto da far nascere l’idea della necessità di una disciplina autonoma, la Data Science appunto, distinta dalla Computer Science, che inglobi non solo gli aspetti analitici, gestionali e di modellazione dei dati, ma anche aspetti ingegneristici, di economia ed abilità collaterali (i cosiddetti soft-skills).
Con il termine Data Science, benché sia ancora lontana una definizione universalmente riconosciuta, si tende ad indicare un campo di studi interdisciplinare focalizzato sia sui processi che sui sistemi tecnologici necessari ad estrarre conoscenza e – in ultima analisi valore, da dati di varia natura, forma e dimensione. Perciò la Data Science eredita elementi di Statistica, Data Mining, Machine Learning, Ricerca Operativa, Teoria dell’Informazione, Programmazione e Big Data.
L’Europa non è stata a guardare in tutti questi anni. In coerenza con le iniziative per l’Economica Digitale ed il Mercato Unico Digitale è stata attivata una serie di iniziative sovrannazionali che mirano ad incentivare la collezione, la condivisione e la produzione di dati digitali in varie forme.
Si vengono a determinare tre dimensioni della Data Science, tutte e tre fondamentali e che necessitano di attenzione negli anni a venire. La dimensione della disponibilità del dato, inclusi gli aspetti legati al formato, l’interoperabilità e le regole di sfruttamento; la dimensione tecnologica, con le soluzioni sia open source che proprietarie che rendono possibile la gestione di questi dati; la dimensione educativa, con le iniziative volte ad identificare le competenze attese dal mercato del lavoro per supportare Università e centri di formazione per la preparazione di lavoratori in grado di affrontare adeguatamente il cambio di passo atteso nell’economia del 21° secolo.
Nell’ambito della prima dimensione, della disponibilità del dato troviamo le varie iniziative della Commissione Europea, come la direttiva INSPIRE per la strutturazione dei dati georeferenziati della pubblica amministrazione secondo formati aperti ed interscambiabili, il portale degli Open Data e l’azione Copernicus, in collaborazione con l’ESA (Agenzia Spaziale Europea) per lo sfruttamento dei dati di osservazione della terra.
Nella seconda dimensione, quella tecnologica, troviamo gli strumenti messi a punto dalla comunità internazionale per la gestione dei big data, principalmente in ambito open source. Il più noto è il framework Hadoop che nel tempo ha visto nascere una serie di strumenti ormai maturi per gestire ogni aspetto e problema legato ai Big Data in ambito Enterprise. Apache Spark ha invece raggiunto una maturità ed efficienza molto più avanzata di Hadoop e punta a diventare una piattaforma autonoma. Infine sul fronte proprietario da notare la tendenza ad offerte omnicomprensive da parte dei maggiori vendor (Microsoft, Google, Amazon Web Services) che includono Internet of Things, Big Data e Cloud Computing; segno che la convergenza tecnologica di queste tre buzzword è iniziata. In tal senso vediamo nascere anche piattaforme specifiche per la Data Science come la Data Science Experience, recentemente promossa da IBM.
La terza dimensione è quella dell’educazione; in questo ambito distinguiamo tra le iniziative che mirano ad accrescere il livello delle conoscenze della popolazione nell’ambito digitale (inteso a 360°, incluse le abilità di utilizzare un browser e navigare in rete, oltre che quelle di saper programmare) e quelle più specifiche per la definizione di curricula universitari e post universitari dedicati alla Data Science o alla promozione di comunità legate ad essa. Presto l’aspetto educativo si fonderà con quello normativo, per cui alle comunità e ai corsi offerti sulla base di specificità e sensibilità dei singoli docenti ed istituti, si sostituiranno contenuti e competenze richieste sulla base di certificazione e/o indicazioni di associazioni professionali, come è successo con quelle del Project Management.
Il concetto della Data Science non sarà la nuova buzzword che passerà col prossimo cambio tecnologico o sulla base delle esigenze del marketing. I segnali che abbiamo notato sono destinati a consolidarsi nel prossimo futuro e a durare nel tempo. Se il dato è il nuovo petrolio del 21° secolo, la Data Science è la sua raffineria.
Andrea Manieri e Francesco Saverio Nucci