“I dati hanno ragioni che la ragione non conosce”
(Anonimo)
Dopo un mio precedente articolo su Ingenium su fake data e fake charts, come specializzazione del più popolare concetto di fake news, confesso di avere intensificato le mie verifiche in giro per la rete e ora vedo numeri fasulli o male interpretati praticamente dappertutto.
Di fatto, sono “vittima consapevole” di quel particolare bias cognitivo noto come law of the instrument, che porta ad avere una confidenza eccessiva in uno strumento o metodo solo perché ci è familiare, ben rappresentata dal detto “if all you have is an hammer, everything looks like a nail”.
Tuttavia, è indubbio che molte delle decisioni che siamo chiamati a prendere, da quale tecnologia utilizzare in un progetto IT a quali cibi consumare, sono – purtroppo – sempre più spesso fake-data-driven.
Abbiamo già visto a proposito dell’informazione sulla violenza di genere che spesso si parte da dati corretti ed affidabili, presentati però in modo parziale, elaborati impropriamente oppure non applicabili al contesto in esame.
Progetti Big Data fake-data-driven
Problema: dovete scegliere quale tecnologia di database utilizzare per realizzare un sistema informativo che dovrà gestire un enorme volume di dati. Così decidete di optare per una soluzione NoSQL, sulla base di benchmark che mostrano come questo tipo di soluzioni, in virtù di un’architettura distribuita, sia in genere più scalabile – cioè mantiene prestazioni costanti al crescere del volume di dati gestiti – rispetto ad un database relazionale classico.
Un benchmark non è che una tabella di numeri che mostra valori di grandezze in funzione di parametri di riferimento, della quale si può fare un uso proprio o un uso fake.
Se quello che dovete realizzare è un sistema IoT di agricoltura di precisione, che cattura dati H24 (precipitazione in mm, velocità del vento, umidità al suolo e in quota, pressione atmosferica) da sensori e droni dislocati su diverse decine di ettari di terreno coltivato, il benchmark di scalabilità guida correttamente la scelta. I dati da raccogliere non sono particolarmente strutturati e, indipendentemente da come saranno poi elaborati, dovete solo garantirne l’efficiente acquisizione senza necessità di modifiche puntuali, cioè senza supporto transazionale.
Il medesimo bechmark diventa fake, in termini di parzialità e incompletezza, se quello che dovete realizzare è invece un sistema di billing per un fornitore di servizi globale con decine di milioni di clienti, come un grosso provider di telecomunicazioni o di utilities. Qui il problema su cui soffermarsi non è – solo – garantire le prestazioni al crescere della quantità di dati da acquisire, ma la consistenza delle transazioni di dati strutturati (stiamo parlando di bollette e pagamenti) in fase di acquisizione e successiva modifica. In questo caso la scelta non può essere guidata solo dai benchmark di scalabilità e un buon vecchio database relazionale con SQL nativo e ACID transactions è ancora la soluzione migliore.
In realtà, tutte le ricerche indipendenti – cioè non sponsorizzate da questo o quel vendor – che ho potuto consultare concludono che non esiste una tipologia di database che abbia performance in assoluto migliori di altre, anche con volumi di dati crescenti da gestire. L’opzione migliore dipende sempre dalle caratteristiche dei dati (struttura, legami) e dalle operazioni che su questi si dovranno eseguire (caricamenti massivi, query puntuali o di raggruppamento, modifiche con supporto transazionale).
Se siete interessati al tema, potete approfondirlo qui con una serie completa di good data di confronto tra database SQL e NoSQL, sia commerciali che open source, e le istruzioni per riprodurre i test di benchmarking su un sistema Linux Ubuntu.
Scelte alimentari fake-data-driven
Ragionando con dati completi piuttosto che fake o parziali, possiamo demistificare diverse “post-verità” più o meno in voga. Come il fatto che l’olio di palma sia dannoso per la nostra salute e per quella del pianeta, a causa della deforestazione provocata dalle sue coltivazioni. Me lo ribadiva di recente la mamma di una compagnetta di asilo di mia figlia, fieramente contraria al recente obbligo di vaccinazione per l’ammissione scolastica ma molto attenta a selezionare per la sua bimba merendine che non contengano olio di palma.
Nel maggio del 2016 l’EFSA (European Food Safety Authority) ha pubblicato un rapporto sulla presenza di alcuni derivati del glicerolo negli oli vegetali. Il documento offre una informazione molto tecnica ma ricca di good data sul fatto che i processi di raffinazione di gran parte degli oli vegetali (non solo palma, ma anche cocco, colza, mais, girasole, etc.) determinano sopra i 200° la formazione di sostanze che, se assunte in grandi quantità, possono essere potenzialmente dannose.
Il Ministero della Salute chiese a suo tempo chiarimenti all’EFSA e l’Istituto Superiore di Sanità fece poi sapere che la presenza di quelle sostanze all’interno degli oli vegetali raffinati era nota da anni, precisando che non erano disponibili dati che potessero correlare l’uso dell’olio di palma all’insorgenza di tumori nell’uomo.
Tuttavia, un utilizzo fake dei dati del rapporto, unito all’ipersensibilità dell’opinione pubblica sul tema, portò ad una ondata di allarmismo ingiustificato che spinse la catena di supermercati Coop ad annunciare la sospensione della produzione e vendita di suoi prodotti contenenti olio di palma, ignorando del tutto gli altri oli vegetali oggetto del rapporto. La stessa cosa avevano già fatto alcune multinazionali del food & beverage, pubblicizzando l’assenza dell’olio di palma nei loro prodotti a solo scopo di marketing, per sfruttare un target trasversale sensibile ai valori salutisti e ambientali.
In tema di deforestazione, la palma da olio ha una resa media di 3,47 tonnellate per ettaro: 5 volte più della colza (0,65 t/ettaro), 6 volte di più del girasole (0,58 t/ettaro), 9 volte più della soia (0,37 t/ettaro) e 11 (0,32 t/ettaro) rispetto all’olio di oliva. Nel 2013-14, l’olio di palma rappresentava più di un terzo della produzione mondiale di oli vegetali occupando solo il 6% delle terre coltivate a questo scopo.
Se incrociamo questi dati con i forecasting sul crescente fabbisogno mondiale di grassi vegetali dato dall’aumento della popolazione, possiamo concludere che la produzione di olio di palma sembra essere la più earth-friendly rispetto a quella di altri oli vegetali. Proverò a parlarne con quella mamma giustamente preoccupata per la salute di sua figlia.
Ora che avete qualche informazione in più per scegliere con maggiore consapevolezza il database più adatto al vostro progetto Big Data e lo snack o la merendina migliore, non abbiate paura a mettere nel carrello della spesa anche una lombata a km 0, invece di un più apparentemente sostenibile riso basmati, arrivato sugli scaffali del vostro supermercato dopo un lungo viaggio dall’India.
Potreste aver letto nel 2014 questa notizia sul sito dell’ANSA, il cui titolo recitava “Provocate da bovini 74% emissioni gas effetto serra”. Il testo dell’articolo chiariva subito che i bovini erano responsabili del 74% non di tutte le emissioni di gas serra, ma di quelle degli allevamenti, a loro volta pari al 10% delle emissioni totali. Ma al lettore pigro resta impresso solo il titolo, esempio da manuale di fake data.
Il tema è complesso e articolato e se volete approfondirlo per decidere cosa mettere in tavola stasera potete partire ad esempio da qui.
Conclusioni
Il data mistreatment è un tema su cui dovremmo sviluppare maggiore sensibilità. La manipolazione e il maltrattamento dei dati dovrebbero essere in cima alle nostre priorità. Evitare di prendere decisioni fake-data-driven richiede impegno, metodo e risorse. Da dove cominciare? Favorendo a tutti i livelli un po’ di cultura scientifica, di cui purtroppo il nostro paese è un po’ carente. Proviamo ad imitare gli scienziati, che utilizzano i dati sottoponendoli tutti a completo e rigoroso vaglio. Il progresso della conoscenza così è più lento e faticoso, ma molto più affidabile.
Tradotto in pratica, quando leggiamo qualcosa con dei dati a supporto – a meno che non sia il prodotto di un processo peer review in doppio cieco – non fidiamoci a priori dell’interpretazione che ne viene data. Proviamo ad esaminare i dati, verifichiamo la congruenza con il titolo o il commento che li accompagnano e da quali fonti siano stati tratti, dando un rating di maggiore attendibilità alle organizzazioni ufficiali, meglio se sovranazionali, non legate direttamente ad attori economici.
Ve la sentite, a partire da subito, di faticare un po’ di più e di prendere qualche decisione di meno, ma sulla base di informazioni più attendibili e complete?
Marco Caressa