“Tutto dovrebbe essere reso il più semplice possibile, ma non più semplicistico.”
Albert Einstein
I termini Cloud e Big Data sono in voga da tempo e vengono spesso associati generando a volte incertezze e malintesi, sia involontari che studiati a tavolino da parte di fornitori di prodotti o servizi a fini promozionali e di marketing. Vale quindi la pena soffermarsi a riflettere sulle reali potenzialità offerte da questo scenario.
Il fenomeno dei Big Data, supportato da tecnologie che hanno come capostipite il progetto open source Hadoop che ha recentemente compiuto 10 anni di vita, è talmente consolidato che la società di ricerca Gartner, da qualche anno, lo identifica come una pratica e non come una tecnologia emergente. Nella realtà però richiede di superare difficoltà legate alla individuazione di scenari analitici ragionevoli e profittevoli, alla molteplicità di competenze specifiche richieste a chi deve sviluppare le soluzioni, alla scelta tra i diversi strumenti software disponibili e infine alla individuazione della infrastruttura hardware e software di supporto.
Big Data e Cloud
Secondo Forbes, entro il 2020 ogni essere umano genererà 1,7 Mb di informazioni al secondo, e un terzo di queste saranno gestite in cloud. Da una recente ricerca condotta su 1.400 aziende in 77 Paesi da un produttore di soluzioni analitiche su Hadoop emerge che il 53% degli intervistati ha già rilasciato la propria piattaforma Big Data in cloud e che il 72% ha in programma di farlo in un futuro prossimo.
Fin qui si tratta di un ragionamento causa-effetto abbastanza scontato e inequivocabile: portiamo i Big Data sul cloud per facilitarne gestione. Ma ci sono diversi aspetti da considerare e non tutti portano vantaggi sicuri.
Il cloud possiede caratteristiche intrinseche particolarmente appetibili per la gestione dei Big Data, quali la disponibilità di risorse a richiesta e la facilità di approvvigionamento (on demand/fast provisioning), l’elasticità (capacità di adattarsi a mutevoli carichi di lavoro) e la flessibilità dell’infrastruttura, la possibilità di ottenere un time-to-market vantaggioso e quella di abilitare una spesa costruita in funzione dell’effettivo utilizzo delle risorse (pay-as-you-go capacity).
La possibilità data dal cloud di acquisire in tempi rapidissimi macchine virtuali su cui misurare la propria soluzione Big Data è efficace e riduce i tempi di avviamento del progetto oltre ad agevolare eventuali sperimentazioni tecnologiche o la realizzazione di attività dimostrative (proof of concept). Scegliendo opportunamente i fornitori della tecnologia – i cloud provider – possiamo conoscere i costi a priori e contenerli senza sprechi o brutte sorprese.
Va considerato che esistono diverse modalità di fruizione del cloud e anche per questo va fatta una scelta oculata.
Big Data as a Service?
Cloud provider come IBM, Microsoft ed Amazon espongono servizi Big Data adottando soluzioni proprietarie o open source in grado di soddisfare le molteplici esigenze di progetto. L’offerta è vastissima e valida e solleva sia dalla responsabilità della scelta, delegandola di fatto all’autorevolezza data dal brand del fornitore, sia dalla gestione e manutenzione delle soluzioni software. La platea di opzioni resa disponibile dai cloud provider resta comunque limitata rispetto a quella a disposizione dell’attività progettuale di definizione di un’architettura. Paradossalmente ciò può risultare confortante e rassicurante per un architetto IT, vista la notevole mole di strumenti tra i quali è chiamato a scegliere.
Un’ulteriore considerazione, che riguarda soprattutto la possibilità di fruizione dei Big Data in modalità servizio (Big Data-as-a-Service) riguarda il cosiddetto lock-in, ovvero la difficoltà di svincolarsi da un fornitore di tecnologia senza sopportare costi notevoli. Vincolarsi ad una scelta tecnologica, in una fase di vivacità del panorama Big Data e delle molteplici opportunità che questo offre, potrebbe rivelarsi estremamente controproducente, anche nell’arco di un breve periodo temporale.
E la protezione dei dati?
Una delle principali problematiche legate all’adozione di infrastrutture cloud per ospitare i Big Data è legata alla protezione dei dati. Molti settori, in particolare quello finanziario, spesso rinunciano al cloud per il timore di violazioni ai propri dati, sia per quanto riguarda il traffico in rete, sia per la dislocazione fisica degli stessi. Un altro aspetto da considerare riguarda la rispondenza alle normative relative alla privacy che sono differenti nei diversi Paesi. L’archiviazione di informazioni sensibili sulla nuvola, se può offrire costi inferiori rispetto ad altre soluzioni, è assoggetta alle pratiche di sicurezza dettate dal service provider.
Una possibile soluzione, che non consente di usufruire appieno dei vantaggi economici offerti dal cloud pubblico, è quella di affidarsi a fornitori di cloud privati o di cloud ibridi (hybrid clouds). Quest’ultima opzione consente di concentrare le attività più delicate e i dati sensibili su private cloud (che nella soluzione on-premises può risiedere anche presso il proprietario delle informazioni) e conservare sul cloud pubblico quelle provenienti da dati esterni che, anche a fronte di un volume consistente, richiedono minore protezione, consentendo di ottenere comunque un sufficiente risparmio economico.
Monica Franceschini