MARKET | 20 Apr 2017

Data Lake nuova risorsa?

Un report Bloor Research indica il Data Lake come possibile strumento di analisi predittiva

Le organizzazioni si affidano sempre più alle conoscenze che derivano dai dati per migliorare la redditività, scoprire nuove opportunità, accelerare l’innovazione di prodotti e servizi e garantire soddisfacenti customer experience.

Ma i Big Data, come è noto, richiedono nuove capacità di collegare fra loro le informazioni al fine di avere un approccio visuale ai dati, anche attraverso nuovi modelli di interpretazione. Sfide non banali per le aziende che, approcciando la cosa in modo tradizionale, corrono il rischio di dover affrontare processi costosi, che richiedono un impegno gravoso di risorse umane e non portano ai risultati attesi.

Data Lake: di cosa parliamo?

Il Data Lake è un metodo di lavoro che semplifica l’archiviazione, la gestione e l’analisi dei Big Data, attraverso un singolo ambiente collaborativo in cui gestire la domanda e l’offerta di dati, esplorare, mettere in relazione e acquisire qualsiasi tipo di dato da qualsiasi fonte interna o esterna all’azienda, in modo da prepararli e consegnarli successivamente per l’analisi.  In sintesi, senza entrare in tecnicismi, si possono considerare i Data Lake come piattaforme per la gestione dei dati dell’intera azienda che affluiscono da sorgenti differenti e che danno l’opportunità ai vari utenti del lake di esaminare il contenuto, immergervisi o prelevare campioni. Praticamente un volume consistente di dati grezzi – strutturati, semistrutturati e destrutturati – in formato nativo da poter studiare e analizzare.

L’idea è semplice: invece di mettere i dati in un magazzino costruito ad hoc, li si sposta in un Data Lake nel loro formato originale, eliminando così i costi iniziali dell’inserimento e trasformazione dei dati e fornendo l’opportunità di usarli da parte di chiunque all’interno dell’azienda.

La criticità principale nell’uso di questo strumento risiede nella difficoltà di costruire un “lago” che raccolga i dati in maniera tale da renderli effettivamente sfruttabili, evitando che questo si trasformi in “palude”.

Vantaggi e caratteristiche principali

Secondo un recente report di Bloor Research un Data Lake intelligente arricchisce e mette in relazione le informazioni utili dei Big Data con clienti, prodotti e altre entità business-critical. Dopo le metriche e le analisi retrospettive dei dati,  vantaggi fondamentali di business intelligence e datawarehouse, i Data Lake offriranno nuove possibilità di analisi predittiva.

Secondo Bloor la gestione dei Data Lake dovrebbe consentire la produttività e la collaborazione, oltre a rendere più agevole una rapida identificazione tramite un accesso controllato alla piattaforma. Oltre a questo un Data Lake ben costruito può:

  • garantire che tutti i tipi di dati possano essere inclusi, preparati per l’analisi e consegnati agli utenti in modo rapido e automatizzato
  • rispettare le linee guida operative di data governance, seguendo le regole per accedere e analizzare i dati preimpostati dal personale appartenente a diversi dipartimenti e funzioni
  • mantenere la data quality anche integrando il machine learning, utile a semplificare e migliorare l’automazione del processo di analisi e limitando quindi la possibilità di errore
  • registrare il lineage dei dati memorizzando tutte le informazioni utili a stabilire la provenienza dei dati e ottenere il massimo riuso
  • proteggere i dati controllandone l’accesso tramite i livelli di sicurezza, come ad esempio controllo di accesso, crittografia e data masking
  • mantenere la coerenza semantica acquisendo e lasciando i metadati, in modo che i set di dati siano semplici da trovare e facili da comprendere.

Che quella dei Data Lake sia la metodologia più efficace o meno per l’analisi delle inferenze solo l’esperienza potrà dircelo. Certo è che le tecniche di analisi basate sui Big Data richiedono un vero e proprio cambiamento di mindset negli analisti. Un cambiamento che si traduce in nuove modalità operative, in nuovi modelli di analisi, in un nuovo modo di vedere le cose.  Un nuovo modo di vedere le cose che guarda ad un mondo sempre più complesso sulla base di prospettive interpretative nuove, che sollecitano sfide tecnologiche sempre più complesse.

Nella sfida verso la costruzione di senso alla quale tentiamo di rispondere con la Big Data analysis, tuttavia, non dobbiamo mai trascurare il fatto che la statistica inferenziale guarda al cosa, mentre noi non dobbiamo mai scordare di guardare al perché.