TECH | 3 Mag 2018

Gli algoritmi possono essere razzisti?

Il problema della rappresentatività dei dati in un'indagine su DBpedia

“L’iPhone è razzista?”

Se lo è chiesto Newsweek in un articolo del 18 dicembre 2017, così come altri giornali inglesi quali Mirror e The Sun, che hanno raccolto il malcontento di alcuni utenti cinesi a poche settimane dal lancio del nuovo modello di smartphone. Questi ultimi hanno scoperto di poter sbloccare telefoni altrui con la propria immagine, indipendentemente dall’esistenza di relazioni di parentela.

Com’è possibile una “svista” del genere? Difficile dirlo, perché Apple chiaramente non divulga i dettagli della sua tecnologia. Il problema, per cui naturalmente esistono rimedi noti, non riguarda tuttavia solo i dispositivi Apple. Sembra infatti che diversi modelli di riconoscimento facciale, seppure addestrati su milioni di immagini, non abbiano performance accettabili su determinati segmenti di popolazione o etnie.

La discriminazione risiede nei dati?

Abbiamo elaborato un’ipotesi secondo la quale l’origine di tale “discriminazione” risieda nei dati. A tale scopo, abbiamo deciso di analizzare una delle banche dati più rappresentative del mondo: Wikipedia, o meglio DBpedia.

Perché DBpedia? DBpedia è uno degli snodi nevralgici della galassia dei Linked Open Data, un gigantesco e preziosissimo patrimonio di informazioni strutturate, corredate da una straordinaria varietà di collegamenti. Questo progetto rappresenta un enorme e multilingue Knowledge Graph, che giace su un’infrastruttura pubblica e permette di salvare la conoscenza in una forma machine-readable, esplorabile dagli utenti tramite semplici query, usando il linguaggio SPARQL.

DBpedia è uno spettacolare artefatto della conoscenza del genere umano, derivato dai “democratici” contributi degli utenti di Wikipedia. Va oltre gli scopi di questa analisi sapere se DBpedia abbia effettivamente avuto un ruolo nell’addestramento di alcuni algoritmi di riconoscimento facciale. Sappiamo però di per certo che il suo vecchio omologo Freebase, ha avuto notevole rilevanza in recenti lavori.

Dunque, se da un lato Wikipedia resta ad oggi uno dei dataset prediletti per l’addestramento di algoritmi, DBpedia (che immagazzina il complesso sistema di relazioni che interconnette le pagine dell’enciclopedia) rappresenta il punto di partenza ideale per una varietà di tipologie di addestramento.

Ora, da un punto di vista pratico, ipotizziamo che un marziano, atterrando sul nostro pianeta, voglia farsi un’idea sulla composizione del genere umano, accedendo ad una delle risorse più estese ed “universali” mai concepita. Abbiamo cercato di farci un’idea, noi per lui, di quale sia la distribuzione del luogo di nascita delle “Celebrities” che trovano spazio in DBpedia. 

Il numero di persone presenti nella versione inglese di DBpedia consultabile online (di gran lunga la più ricca e completa) si attesta approssimativamente intorno ai 3 milioni, inclusi casi di incongruenze, duplicati e dati incompleti.

Dopo aver cercato di minimizzare l’impatto di tali incongruenze, per semplicità, abbiamo deciso di restringere la nostra analisi alle persone nate dopo il 1850, per cui fosse indicata una località di nascita. Così facendo siamo giunti ad avere poco meno di un milione di persone.

In molti casi, per risalire al Paese di origine, è stato necessario incrociare questi dati con un’altra importante sorgente di Linked Open Data, WikiData, e prendere decisioni non facili, quali associare la Russia/URSS al continente Europeo (ndr: Russia e Turchia vengono collocate da Wikidata sia nel continente asiatico che in quello europeo) o l’entità non più esistente dell’Impero Austro-Ungarico all’odierna Austria.

Abbiamo quindi riprodotto i risultati dell’indagine in un grafico, restringendoci alle Celebrità nate in Stati con più di 10 milioni di abitanti, assumendo che Stati meno popolosi non avrebbero comunque spostato le nostre stime in modo significativo. Abbiamo così analizzato il peso che ciascuna nazione, e dunque ciascun continente, ha in DBpedia.

Commento al grafico: nella metà sinistra del grafico, è riportata la ripartizione della popolazione mondiale continente per continente. Lo spessore delle linee è proporzionale alla popolosità del continente (l’Asia fa da padrone con 4 miliardi di abitanti). Nella metà destra del grafico, per ciascun continente è riportata la frazione di celebrità registrate su DBpedia, proveniente da ciascuno degli Stati selezionati. Lo spessore complessivo del fascio nella metà di destra è proporzionale al numero di celebrità appartenente a ciascun continente. Se il numero di persone presenti su DBpedia per ciascun continente fosse proporzionale alla popolazione odierna del continente stesso, lo spessore del fascio di destra e di sinistra sarebbe identico.

Quali sono i risultati della nostra indagine?

Più del 74% delle persone registrate su DBpedia dopo il 1850 risulta nata in America Settentrionale o in Europa, a dispetto del fatto che la popolazione di questi due continenti oggi non copre nemmeno il 20% della popolazione mondiale. Per ciascuno Stato, abbiamo diviso il numero di celebrità per la sua popolazione effettiva odierna. Gli stati più rappresentati su DBpedia sono le piccole isole dell’Oceania (Niue, Tuvalu, Nauru), che hanno una popolazione di poche migliaia di abitanti. Seguono San Marino e Principato di Monaco. Sopra i 5 milioni di abitanti, lo Stato più rappresentato è la Norvegia. Gli Stati meno rappresentati sono invece Sudan, Etiopia, Tanzania, Niger, Yemen.

È interessante notare che India e Cina, Paesi che oggi ospitano da soli il 50% della popolazione mondiale, sulla nostra “Enciclopedia Universale” detengono frazioni di punti percentuali rispetto alla loro popolazione effettiva (rispettivamente 0,002% e 0,00014%). E l’Africa, continente da 1 miliardo di persone, è meno rappresentato di quanto siano rispettivamente Germania e della Francia. Il nostro marziano, probabilmente, concluderebbe che le terre emerse sul nostro pianeta si chiamino prevalentemente Europa ed America Settentrionale, e che la composizione del genere umano sia di gran lunga dominata da popolazione originaria di questi continenti.

Queste considerazioni possono essere giustificate in diversi modi: dal fatto che la versione di DBpedia usata di riferimento è quella in lingua inglese, di gran lunga la più ricca e popolata; dal fatto che la storia dell’ultimo secolo nei Paesi occidentali è molto ben documentata; dal fatto che molti Paesi hanno conosciuto solo recentemente una forte espansione demografica, che li rende, in proporzione, poco rappresentati. Inoltre questa analisi si basa necessariamente su alcune assunzioni semplificate (le persone si muovono, e la cultura non è necessariamente quella del Paese di origine). Ciononostante, è indubbio che la presenza di immagine (e molto probabilmente di valori, anche in senso figurativo) di (Paesi) Americani ed Europei, su Wikipedia sembra essere almeno un ordine di grandezza superiore a qualunque altro continente o Stato del mondo.

Quindi l’iPhone è razzista?

Molto probabilmente no, ma questa domanda lascia spazio ad alcune considerazioni.

L’impiego dell’Intelligenza Artificiale porta con sé necessariamente uno schema culturale, che mai come nel Deep Learning scaturisce dai dati usati per l’addestramento. Addestrare un modello, sia esso di riconoscimento facciale, di traduzione, o un chatbot, significa convogliare con esso dei valori, che guidano decisioni e azioni.

Da un lato quindi è necessario che noi tutti, come utilizzatori di “Intelligenze Artificiali”, non dimentichiamo che il risultato di qualsiasi algoritmo, per quanto logicamente coerente, è sempre relativo al modo in cui l’algoritmo è stato pensato e addestrato. In realtà per qualunque tipo di previsione esistono degli specifici limiti di validità, che in genere vengono chiaramente delineati in fase di definizione dell’algoritmo stesso, ma di cui purtroppo l’utente finale non è sempre perfettamente consapevole.

Dall’altro, al Data Scientist interessato a costruire un modello che interagisca con alcuni delicati aspetti della nostra quotidianità (etnia, sesso, religione di appartenenza, cultura) è richiesta una piena consapevolezza della rappresentatività dei propri dati e dalle modalità con cui i propri algoritmi vengono addestrati, per quanto le proprie risorse siano considerate “universali”. Una “Intelligenza” autoreferenziale non è né utile né costruttiva per il mondo in cui viviamo.


Michele Gabusi