MARKET | 27 Mar 2018

Nuovi orizzonti per la Business Intelligence

Logical Data Warehouse e virtualizzazione dei dati nuova frontiera della BI

Storicamente, un’infrastruttura di Business Intelligence (BI) era qualcosa di molto complesso dove erano presenti fonti di dati e normalizzazione degli stessi, processi ETL, Cubi OLAP e un Data Warehouse su un server fisico. La tecnologia è cresciuta molto, e gli scenari stanno cambiando a causa di due fattori particolari: il cloud e la virtualizzazione. Ma non è tutto. Le tendenze nella Business Intelligence parlano di altri fattori significativi che saranno importanti nei prossimi mesi.

Nuove tecnologie portano sempre a nuove possibilità. Nel caso della Business Intelligence, che ora tutti chiamano Analytics, stiamo vivendo una rivoluzione fondamentale. La tendenza si orienta verso uno scenario dove la maggior parte degli utenti aziendali avrà accesso a strumenti self-service per preparare i dati per l’analisi, senza dover passare necessariamente per l’IT. La maggior parte delle offerte indipendenti di preparazione dei dati self-service sarà estesa a piattaforme di analisi end-to-end o integrate come funzioni in Front-End già esistenti. Il rilevamento intelligente dei dati, su Hadoop, basato su ricerche semantiche, visivo e intelligente diventerà una forma unica di rilevamento dei dati di prossima generazione.

Secondo un recente studio di Gartner “Le organizzazioni stanno abbracciando l’analisi self-service e la Business Intelligence per offrire queste funzionalità agli utenti aziendali a tutti i livelli. Questa tendenza è così marcata che Gartner Inc. prevede che entro il 2019 la produzione analitica degli utenti commerciali con capacità self-service supererà quella degli scienziati professionisti”. In poche parole molto presto tutti saranno in grado di fare analisi sui dati senza dover essere particolarmente formati nella lavorazione degli stessi.

Data Warehouse logico: un nuovo approccio

Cos’è un magazzino dati logico o virtuale? Per comprendere la logica alla base del Logical Data Warehouse è necessario esaminare esattamente cosa sia il Data Warehouse (DW) di un’azienda tradizionale. Secondo Barry Devlin la definizione è questa: “Un Data Warehouse è semplicemente un’archiviazione singola, completa e coerente di dati ottenuti da una varietà di fonti e resi disponibili agli utenti finali in modo che possano comprenderli e utilizzarli in un contesto aziendale” (Data Warehouse: dall’architettura all’implementazione).

Un Data Warehouse è un database unico e fisico. Può essere una rappresentazione di un insieme eterogeneo di fonti di dati, ognuna delle quali contiene parti dei dati aziendali che verranno utilizzati per le transazioni o analisi di business.

Il Logical Data Warehouse è uno stile architettonico che rappresenta i dati provenienti da varie fonti di dati e che non necessariamente sono fisicamente presenti da qualche parte.

Nello scenario tradizionale con un Enterprise Data Warehouse (EDW), i dati provengono generalmente da database transazionali, applicazioni, sistemi CRM, sistemi ERP o qualsiasi altra fonte di dati. Questi dati vengono standardizzati, puliti e trasformati tramite un processo ETL (Extraction, Transformation, Loading) per garantire affidabilità, coerenza e precisione a livello aziendale prima di essere caricati nel Data Warehouse. Questo processo garantisce una piattaforma dati stabile e sicura dalla quale i Data Scientist e gli operatori dell’informazione possono eseguire analisi complesse e generare report informativi.

Oggi il concetto di EDW è obsoleto e inefficiente a causa del volume, della varietà e della velocità dei dati provenienti da cloud, social network, dispositivi mobili e IOT. Dati  (spesso non strutturati) che sono distribuiti su siti globali in una moltitudine di formati. Presupposto e aspettativa sono riferibili al fatto che tutto questo sarà accessibile, significativo e pronto per essere consumato da qualsiasi applicazione BI self-service in tempo reale o quasi reale. Quando un progetto EDW sopra descritto viene implementato, spesso perde la sua rilevanza rispetto alle attuali esigenze di business. Tra il progetto, il disegno e i primi test difficilmente la struttura rimane invariata, e soprattutto molte volte è necessario fare dei passi a ritroso per rimodellare la struttura dei dati. Ma non è tutto, per rendere performante la lettura di questi dati è necessario passare da altri strumenti come i cubi OLAP e per alimentarli sarà necessario approntare altri processi ETL.

Come consulente BI, ho visto progetti ben disegnati che si sono rivelati molto complessi e che hanno richiesto molto tempo per la loro realizzazione a causa del grande “imbuto” chiamato ETL. Prima di caricare i processi, la normalizzazione dei dati è un altro momento critico per ogni progetto. Un LDW può risparmiare il 75% di tempo perché non richiede un processo ETL o la normalizzazione dei dati. Ma non è tutto. In teoria con un LDW si può anche prescindere da un Data Warehouse visto che questo layer logico può collegare direttamente la fonte dei dati con il Front-End.

Sono sempre più numerose le organizzazioni aziendali che cercano di domare questa valanga di dati selvaggi utilizzando un’architettura logica che riassuma le complessità intrinseche del Big Data utilizzando un approccio combinato di virtualizzazione dei dati, gestione dei metadati ed elaborazione distribuita, visto che l’architettura del Logical Data Warehouse combina tutti questi elementi includendo e trascendendo le capacità di EDW.

Il nuovo concetto di Logical Data Warehouse consentirà ai reparti IT di adempiere ai loro compiti e responsabilità in materia di BI. Finalmente è arrivata l’era del vero CIO (Chief Information Officer).

Il layer logico di un LDW fornisce (tra l’altro) vari meccanismi per la visualizzazione dei dati nel DW, senza la necessità di spostare e trasformare i dati prima del tempo di visualizzazione. In altre parole, il Logical Data Warehouse integra il tradizionale magazzino centrale (e la sua funzione principale di aggregazione, trasformazione e persistenza dei dati a priori) con funzioni di ricerca e trasformazione dei dati in tempo reale.

Il grosso vantaggio del layer logico è che i dati sono più freschi, come richiesto dai processi aziendali sensibili al fattore tempo, e la struttura dei dati forniti viene creata al volo, on fly (come richiesto dall’analisi orientata ai dati o al modello), senza limitare i dati a strutture DW pre-costruite. Il raggiungimento di questi vantaggi è stato una sfida in passato, in quanto software, hardware e reti semplicemente mancavano della velocità, della scalabilità e dell’affidabilità richieste per le installazioni.

La virtualizzazione dei dati fornisce un’unica visione integrata dei dati provenienti da fonti distribuite in tempo reale o quasi reale, indipendentemente dal tipo o dalla posizione dei dati o dal fatto che siano strutturati, semi-strutturati o non strutturati. Quando il Logical Data Warehouse, alimentato da un prodotto completo di Data Virtualization, si unisce alla sua ineguagliabile performance di elaborazione distribuita che spinge l’elaborazione al sistema sorgente dove i dati sono in attesa di essere richiesti, inizia il “ballo” dei dati liberati.

Il Data Warehouse logico in termini attuali

La necessità di una BI self-service nella moderna gestione dei dati non può essere sottovalutata, e quindi la possibilità di avere un magazzino Dati Logici self-service dove possono essere collegate fino a 100 fonti diverse in pochi minuti dall’installazione è certamente importante.

Che cosa significa in pratica? Ci sono molte aree di business in cui le aziende vogliono fare l’analisi dei dati. Informazioni sui clienti, stato dell’ordine, qualsiasi cosa. Se si desidera generare report attraverso i quali dedurre informazioni, ci sono due problemi: in primo luogo, l’acquisto di una licenza per il software appropriato per caricare i dati e un posto per conservarli e, in secondo luogo, l’acquisto di un database. Quindi non è così facile. Anche investendo in un database e spendendo soldi per una licenza, ci vorranno dai 6 agli 8 mesi prima che il report venga generato, perché i dati devono essere caricati nel database centrale. Questo, a sua volta, richiede sviluppatori pratici nel Back-End. Il risultato finale è che la relazione nascerà dopo sei mesi, quando l’azienda avrà già dimenticato ciò che voleva.

“Data Driven” seriamente

Oggi si parla molto di imprese basate sui dati, ma sono pochissimi gli strumenti che si preoccupano di evitare noiose procedure ETL. È facile guardare il Front-End, ma molto più difficile saper mettere le mani nel Back-End. Le organizzazioni hanno bisogno di un Business Intelligence Front-End robusto, in grado di connettersi con il Logical Data Warehouse. Qlikview, TARGIT, PowerBI, Tableau e persino i comuni fogli di calcolo possono fornire risultati da una sorgente SAP in pochi minuti e quattro clic. Nessun ETL con l’unico obbligo di fare un Data Modeling. Dite al Front-End quali campi della tabella vengono misurati e quali dimensioni e con strumenti come Querona questo si potrà realizzare abbastanza semplicemente.

Le decisioni così potranno basarsi su dati attuali. Inoltre, un Data Warehouse Logico di nuova generazione permetterà di indicare l’origine dei dati e stabilire se questi verranno caricati una volta al giorno, di notte, al mattino, nel cloud o in qualsiasi altro luogo. Tutti (sulla base delle autorizzazioni di accesso indicate dal CIO) possono accedervi sempre e da ogni luogo in sicurezza.

La nuova generazione di LDW consente in pratica ai Data Scientist di gestire tutte le informazioni senza dover fare affidamento sull’infrastruttura tecnologica. E questo è un sogno che si avvera.

Michele Iurillo