Ultimamente si parla molto di fake news, meno di fake data o fake charts, più subdoli e pericolosi perché a essi si dà più facilmente quel credito concesso alle misure quantitative rispetto alle semplici affermazioni qualitative.
L’aumento esponenziale della produzione di dati e grafici sta determinando un sovraccarico di numeri, percentuali e tendenze praticamente su qualsiasi cosa, con un rumore di fondo che rischia di distorcere idee ed opinioni.
Non è un problema originale. Darrel Huff se l’era posto oltre 60 anni fa nel suo ormai classico libriccino “How to lie with statistics“, mettendoci in guardia dai rischi e dalle conseguenze negative di un utilizzo spregiudicato o, peggio, stupido e ignorante, di dati e statistiche. Rischi e conseguenze oggi amplificati di ordini di grandezza dalla diffusione virale garantita dal web e dai social media.
Perché se “le parole sono importanti”, come diceva qualcuno, dati e numeri sono qualcosa di più. Sono il linguaggio politicamente corretto del fact & data mindset, oggi proclamato da molti ma praticato realmente da pochi. Metodi, strumenti e termini della statistica sono fondamentali per ricavare dai dati andamenti economici, sociali e di business. Tuttavia, senza un uso intellettualmente onesto e consapevole da parte di chi scrive e un livello di alfabetizzazione funzionale minimo da parte di chi legge, i risultati possono essere dei non-sense semantici, quando non vere e proprie manipolazioni malevole per indirizzare opinioni e spostare consenso.
Valori assoluti e relativi
Consapevole di avventurarmi su un terreno minato e di forte impatto emotivo, parto da una premessa per me non negoziabile, cioè che qualsiasi forma di discriminazione delle persone su base etnica o razziale, oltre a non avere alcun fondamento scientifico, non sia compatibile con nessuna regola di convivenza civile.
Ciò detto, poiché le strade dell’inferno sono sempre lastricate di buone intenzioni, se volessi sostenere un principio in sé sacrosanto ma lo facessi con dei dati parziali o elaborati in modo sbagliato – poco importa se per ignoranza o per dolo – rischierei di sortire l’effetto contrario, fornendo un comodo pretesto a quegli stessi allarmismi e pregiudizi che avevo intenzione di contrastare.
Una nota dell’agenzia ADN Kronos del 29 agosto titolava Stupri, meno da stranieri e più da italiani. Un articolo del 14 settembre di Wired.it titolava Stupri, in 6 casi su 10 chi commette violenza è un italiano. Entrambi gli articoli derivano conclusioni sulla base di valori assoluti e di percentuali aggregate sul totale (es. 6 su 10 appartengono al gruppo X), che però hanno poco significato se non si tiene conto della numerosità delle popolazioni considerate.
Come risulta dalla tabella seguente – che ai dati citati dai due articoli aggiunge i dati ISTAT al 1° gennaio 2017 – il gruppo sociale dei residenti italiani maschi è circa 12 volte più numeroso del gruppo sociale dei residenti stranieri maschi. È quindi normale attendersi che, in valore assoluto, gli italiani denunciati o arrestati per violenze di genere siano la maggioranza – il 6 su 10 del titolo su Wired – ma per gli stranieri si rileva un’incidenza (numero di denunce/arresti ogni 100.000 individui) circa 7 volte maggiore, con differenze poco rilevanti tra il 2016 e il 2017.
* Sulla base (ISTAT) di circa 29,4 milioni di residenti italiani maschi e circa 2,4 milioni di residenti maschi stranieri al 1 gennaio 2017
Consapevole disinformazione o semplice ignoranza delle basi di aritmetica e statistica da parte di importanti magazine e agenzie di stampa?
Dovremmo partire da un principio: rilevare una maggiore incidenza di alcuni gruppi sociali rispetto a specifici fenomeni o tipologie di reato, estendendo magari l’analisi per comprendere anche i dati sulla popolazione carceraria è una misura neutra di un indicatore numerico. Spetta poi a sociologi, demografi e antropologi fare analisi serie e non faziose sulle possibili cause del fenomeno. Ovviamente non su basi etniche, razziali o lombrosiane (aka, non scientifiche) ma piuttosto indirizzando l’attenzione su fattori di precarietà culturale o economica di questo o quel gruppo sociale. Questo cambia completamente anche le possibili azioni di contrasto e mitigazione del fenomeno che potremmo intraprendere.
Medie e mediane
La differenza tra media e mediana è evidente con un semplice esempio. Immaginiamo un dataset con 11 numeri.
2 3 3 4 7 9 11 12 14 17 25
Possono rappresentare quel che volete. Valori di temperatura rilevati alla stessa ora nell’arco di 11 giorni diversi o il numero di ace serviti da Roger Federer nelle ultime 11 partite disputate in tornei del Grand Slam. La media è data dalla somma di tutti gli N valori diviso N e il risultato è in questo caso 9,73. La mediana è invece il valore dell’elemento centrale del dataset ordinato, in questo caso è 9. Se il numero di elementi del dataset fosse pari, la mediana sarebbe calcolata come la media dei due elementi centrali.
In questo esempio i valori di media e mediana sono vicini, in virtù della distribuzione dei valori, ma non è sempre così. Se abitate in una cittadina di 1.000 famiglie, dove il reddito di ogni famiglia è di circa 50.000 euro l’anno, nel relativo dataset il reddito medio e il reddito mediano praticamente coincidono.
Immaginate ora che Warren Buffet, che secondo Forbes nel 2016 avrebbe guadagnato 12 miliardi di dollari, si innamori della vostra cittadina durante una vacanza in Italia e venga ad abitarci. Il dato di reddito più rappresentativo in termini sociali ed economici sarebbe a questo punto il reddito mediano che, anche col trasloco di Buffet dalle vostre parti, rimarrebbe di 50.000 euro (poiché l’elemento centrale del dataset rimane invariato). Il reddito medio per famiglia, invece, schizzerebbe a circa 11 milioni di euro. Uno storyteller poco avveduto (o poco serio) potrebbe sfruttare la diffusa ignoranza sulla differenza tra media e mediana per imbastire un’analisi sociologica fake sulla “cittadina dei ricconi morigerati, con un reddito familiare medio di 11 milioni di euro all’anno che però vivono in normalissime case e si spostano con l’utilitaria”.
Grafici
Se con numeri, tabelle, medie e mediane si possono confondere le idee, usando i grafici il data mistreatment si fa più sofisticato. Cominciamo coi vecchi e ben noti trucchi per “enfatizzare” o “minimizzare” determinati andamenti, scegliendo opportunamente unità di misura e range di valori.
La tre figure seguenti ne mostrano un esempio, utilizzando i dati della precedente tabella sulle violenze di genere. Sono semplicissimi grafici lineari che mostrano l’andamento del numero di violenze (asse verticale) dal 2016 al 2017 (asse orizzontale). Le linee blu rappresentano gli italiani, quelle rosse gli stranieri.
Questo primo grafico mostra una rappresentazione relativamente “neutra”, limitando il range di valori sull’asse verticale tra 800 e 1600, che è l’intervallo in cui ricadono le serie di valori considerate. Dal 2016 al 2017 notiamo un lieve aumento dei crimini commessi dagli italiani e una lievissima diminuzione di quelli commessi dagli stranieri. Il numero totale di crimini (italiani + stranieri) è invece in lieve ascesa.
Immaginate ora di voler far creder all’opinione pubblica che le violenze non siano in realtà in aumento (falso, complessivamente lo sono anche se di poco). E’ sufficiente, come nel secondo grafico seguente, estendere il range di valori sull’asse verticale all’intervallo 0 – 3200. In questo modo le pendenze delle due rette vengono “schiacciate”. La retta rossa diventa praticamente orizzontale, dando l’impressione che i crimini commessi dagli stranieri siano rimasti invariati (vanificando così la lieve ma effettiva diminuzione) mentre l’aumento dei crimini commessi dagli italiani sia praticamente impercettibile.
Se invece, per contrastare tendenze populiste e xenofobe, voleste spostare l’attenzione sull’aumento delle violenze commesse dagli italiani, vi basterebbe restringere il range di valori rappresentati sull’asse verticale tra 1450 e 1550, come nel terzo grafico di seguito. Rimarrebbe così solo la serie relativa ai crimini commessi dagli italiani, con una pendenza che suggerisce una situazione in rapidissimo peggioramento.
Tre messaggi completamente diversi, solo alterando gli intervalli di valori rappresentati, a fronte degli stessi raw data di partenza.
Ci sono poi elaborazioni grafiche più sofisticate, ma ugualmente inconsistenti, come questa, proposta sempre sullo stesso argomento dal canale Info Data del Sole 24 Ore.
La tesi dell’articolo è che l’incidenza sui reati di violenza sessuale non dipenda dalla specifica nazionalità, ma solo – e in modo lineare – dal numero di maschi presenti in un gruppo sociale. Se questo raddoppia, raddoppiano le violenze. Se si dimezza, anche il numero delle violenze si riduce della metà.
Il modello di analisi proposto prevede di costruire un grafico, dove l’asse orizzontale riporta il numero dei detenuti per reati di violenza sessuale e quello verticale il numero di individui maschi di una generica nazionalità. A ciascuna nazionalità corrisponde così un punto sul grafico (nella rappresentazione si usa un piccolo rombo per visualizzarlo meglio). Se la tesi dell’analista del Sole 24 Ore fosse esatta, tutti i punti relativi alle nazionalità considerate dovrebbero collocarsi idealmente sulla stessa retta, o discostarsene di molto poco. Si chiama analisi di regressione lineare e si effettua calcolando un indicatore (R-square, somma delle distanze al quadrato dei dati dalla retta) il cui valore è pari a 1 in caso di perfetta correlazione lineare tra i dati.
La figura seguente mostra il risultato.
Fonte Sole 24 Ore
Il piccolo rombo in alto a destra rappresenta gli italiani e il modello sembra apparentemtente funzionare alla grande, con scostamenti ridotti dalla retta di regressione, la cui pendenza (coefficiente angolare) rappresenta l’incidenza del fenomeno, cioè di quanto aumenta il numero di detenuti per quel tipo di reato all’aumentare della popolazione. In altri termini, una retta ripida indica un aumento contenuto delle violenze all’aumentare della popolazione maschile (dato positivo), una retta “schiacciata” indica un aumento più consistente (dato negativo), ma in ogni caso l’aumento o la diminuzione sarebbero in proporzione le stesse per tutti i gruppi indipendentemente dalla nazionalità.
Il problema è che nel grafico sono stati rappresentati i dati di 62 nazionalità diverse, mescolando popolazioni residenti in Italia di numerosità irrilevante dal punto di vista statistico (es. mongoli, 47 unità, con 1 detenuto per stupro) con gruppi di centinaia di migliaia o, nel caso degli italiani, decine di milioni di individui. Il risultato sono 61 rombi (il resto del mondo) addensati in una zona ristrettissima, con il 62-esimo rombo (gli italiani) lontanissimo. In queste condizioni qualunque correlazione darebbe un valore di R-square prossimo a 1 (0,981 nel caso in esame).
In termini più intuitivi, se avete una nuvoletta di punti molto circoscritta e un singolo punto molto lontano, se tracciate una retta che passa per il punto lontano e per il centro della nuvoletta, questa sembrerà in ogni caso approssimare bene i valori, anche se i dati della nuvoletta fossero casuali e non correlati.
Se però escludete dall’analisi i dati degli italiani ottenete il grafico seguente, dove la pendenza della retta è sensibilmente diversa e gli scostamenti molto più ampi. In sostanza, la correlazione lineare non è più evidente e quindi l’incidenza del fenomeno sembrerebbe in realtà dipendere non solo dal numero di maschi in ciascun gruppo sociale (tesi di partenza), ma in effetti anche dalla nazionalità del medesimo.
Fonte Sole 24 Ore
Infine, il coefficiente angolare per l’Italia ricavabile dal primo grafico è di un detenuto ogni 17.000 individui. Escludendo l’Italia dall’analisi, il coefficiente scende a un detenuto ogni 2.200 abitanti, ossia l’incidenza degli stranieri su questo tipo di reato è circa 7,5 volte superiore.
La “poco rigorosa” analisi di regressione del Sole24 Ore è stata poi ripresa anche da altri media, come Huffington Post, che in questo articolo ne copia e incolla un sunto titolando “I dati dimostrano che l’idea che gli stranieri commettano più stupri degli italiani è solo un luogo comune“. In termini “assoluti” è ovviamente vero, ma ragionando “in proporzione” al numero di individui delle due popolazioni abbiamo visto che non è così. La diversa incidenza dei due gruppi sociali per questo specifico reato è confermata essere pari ad un fattore compreso tra 7 e 7,5 sia usando i dati ADN Kronos e Wired (numero di denunce/arresti), che i dataset del Sole 24 ore (popolazione carceraria).
Conclusioni
Le opinioni che elaboriamo e le decisioni che prendiamo dovrebbero essere sostenute da informazioni ricavate da una corretta elaborazione dei dati. Troppo spesso, però, l’utilizzo degli strumenti e delle tecniche della statistica – in sé neutri – viene distorto, esagerato e ipersemplificato con scelte sbagliate, di merito e di metodo.
I media, da quelli ultra-populisti e pseudo-scientisti a quelli in teoria più moderati, hanno tutti grandi responsabilità su come scegliere i dati, come trattarli e soprattutto come presentarli in forma di notizia, senza cadere nella tentazione del confirmation bias per piegare i numeri alle proprie opinioni precostituite. Si tratterebbe, in fondo, di esercitare davvero quella libertà di stampa rispetto alla quale l’Italia nel 2017 risulta al 77-esimo posto nel mondo.
Per parte nostra, come fruitori di informazioni, dobbiamo rifuggere da facili conclusioni e da scorciatoie euristiche. Cerchiamo di verificare per quanto possibile fonti e metodi, leggiamo con attenzione e spirito critico. In poche parole, anche se non facciamo di mestiere il data scientist, coltiviamo noi stessi per primi la cultura del dato. O almeno proviamoci, sperando che prima o poi anche i media ci vengano dietro.
Marco Caressa