SOCIETY | 14 Mag 2019

Alexa ti ascolta. E qualcuno prende nota

Qual è il legame tra la raccolta dei dati e gli automatismi proposti dall'Intelligenza Artificiale?

Titolava Bloomberg, l’11 aprile 2019: Amazon workers are listening to what you tell Alexa, “I lavoratori di Amazon ascoltano ciò che racconti ad Alexa”. L’articolo, rilanciato anche da alcuni giornali italiani, racconta le vite di migliaia di impiegati Amazon che lavorano per controllare e migliorare la trascrizione dei comandi ricevuti dal famoso assistente vocale al servizio di migliaia di utenti nel mondo. Il tono sensazionalistico degli articoli fa capire quanto poco sappiamo degli strumenti che usiamo.

Machine Learning e annotazioni

In effetti, se un software riesce a individuare pedoni all’interno di un’immagine è perché, in passato, qualcuno ha individuato persone in centinaia di migliaia di immagini. Se riesce a trascrivere correttamente una parola pronunciata è perché qualcuno, in passato, ha associato a suoni specifici lettere e numeri (in pratica ne ha fornito una trascrizione). Se poi è in grado di individuare il sentiment di un documento, è perché qualcuno precedentemente ha associato uno stato emotivo a moltitudini di testi (ansia, felicità, ecc.). Il software basato su Machine Learning, supervisionato, impara a generalizzare queste associazioni create da utenti umani e che in gergo tecnico sono note come annotations (letteralmente annotazioni).

Dato grezzo e Intelligenza Artificiale

Ai fini del Machine Learning dunque non è il dato grezzo a stabilire il valore della banca dati, ma la qualità dell’annotazione, che il software apprende e generalizza. Questo è un problema, perché le aziende che lavorano nel campo dell’Intelligenza Artificiale generalmente consumano dati che non producono e che sono privi di “annotazione”. Ad esempio, per produrre servizi di valore, Amazon usa la voce dei propri utenti, senza conoscerne a priori la trascrizione, in base alla quale il software di Alexa eseguirà un comando.

C’è un’ulteriore aggravante: alcuni algoritmi necessitano di migliaia, se non milioni di annotazioni per poter funzionare correttamente. La raccolta di annotazioni quindi si può trasformare in un processo lungo ed estremamente dispendioso. Non tutte le aziende che operano nel campo del Machine Learning hanno gli strumenti economici per assumere centinaia di specialisti dedicati alla lettura e all’annotazione.

Le annotazioni collaborative

Come si esce da questa impasse? In diversi modi. Uno dei più interessanti è quello della “crowdsourced annotation” (liberamente traducibile con annotazione “collaborativa”): in sostanza, un bacino di utenti fornisce volontariamente il proprio contributo procurando dati in un formato adatto all’addestramento della macchina. L’approccio è estremamente versatile e si è trasformato in una forma di lavoro esternalizzato e retribuito, ampiamente promosso dai giganti del web (Amazon, Microsoft, Google, ecc.), con la comparsa delle piattaforme di labeling basate sul crowdsourcing (la più famosa probabilmente è Figure Eight).

Come funzionano le piattaforme di Crowdsourcing?

Queste piattaforme sono di fatto portali “intermediari” tra richiedenti di manodopera (requester) e utenti della piattaforma (worker). I requester (aziende, ricercatori, istituzioni) disegnano dei compiti a cui workers sparsi in tutti il mondo dovranno rispondere. Fra i vari task previsti c’è proprio l’annotazione di dati forniti dai requester: a volte si chiede al worker di esprimere un’opinione su un testo, altre di verificare la presenza di oggetti all’interno di immagini e localizzarne la posizione, altre di contribuire all’addestramento di un chatbot.

Semplificando, il requester crea un questionario, fissa una tariffa e un tempo limite e lo sottopone al portale. Il portale, a sua volta, sottopone il compito ai propri worker, retribuendone il tempo alla tariffa concordata. Grazie alla capacità di profilazione dei propri worker il portale dovrebbe garantire i requisiti di qualità auspicati dai richiedenti. La sfida è chiaramente riuscire a ottenere dati di alta qualità per addestrare algoritmi a prezzi competitivi.

Amazon MTurk

Per avere un’idea dell’importanza strategica di questo fenomeno, basta guardare ai protagonisti sul mercato. Non stupisce che fra i big ci sia proprio Amazon con la sua piattaforma Amazon MTurk, il cui motto è “Access a global, on-demand, 24×7 workforce” (“Accedi a una forza lavoro globale, su richiesta, 24 ore su 24, 7 giorni su 7”), addirittura integrata con gli strumenti di sviluppo software di IT Amazon Web Service. Dal punto di vista dei requester, le piattaforme di crowdsourcing permettono di valorizzare i dati a fronte di investimenti tutto sommato ridotti, facendo leva sulla capacità delle piattaforme web nel raggiungere persone “adatte” (per un questionario di massimo 15 minuti si fissa un compenso tra gli 1-2 centesimi e alcuni dollari, a seconda del compito). Per conoscere invece il punto di vista del worker si può invece leggere l’interessante articolo My Experience as an Amazon Mechanical Turk (MTurk) Worker, che fornisce interessanti spunti di riflessione.

Le alternative

Dal punto di vista tecnico, dove possibile, la tendenza è quella di preferire all’annotazione massiva soluzioni in cui uomo e macchina interagiscano iterativamente, permettendo al software di contribuire direttamente al miglioramento di se stesso (Active Learning), riducendo il carico di lavoro per l’umano. Per le grandi piattaforme questo è possibile sviluppando sistemi di engagement o rewards (ricompense) da cui l’utente tragga la motivazione necessaria a fornire il proprio contributo (si pensi a sistemi come Google Rewards o alle domande di Google Maps). Per molte aziende tuttavia questa strada non è percorribile, in quanto richiede modelli di business dedicati e non sempre facilmente realizzabili.

La questione etica

Se da un lato è suggestivo che un agricoltore del Minnesota, un ragioniere indiano o uno studente della Sorbona possa contribuire agli stessi obiettivi, dall’altra l’annotazione collaborativa “commerciale” apre anche evidenti questioni etiche: qual è il giusto compenso da riconoscere a uno sconosciuto che, dall’altra parte del mondo, trasferisce la sua conoscenza? Può esistere un rapporto tra requester e worker? E ancora: è lecito che terze parti conoscano il contenuto delle mie conversazioni, pur sempre con il fine di migliorare l’addestramento di una macchina? Non esistono risposte facili a queste domande.

Nella cultura di massa il tema dell’annotazione viene sempre trattato come collaterale alle grandi questioni di privacy. La preoccupazione è lecita, ma è anche una gigantesca semplificazione. L’annotazione rappresenta l’anello di congiunzione tra gli eleganti automatismi del mondo che vorremmo e gli inevitabili limiti della natura umana e, oggi, è ancora il pilastro su cui si regge l’industria dell’Intelligenza Artificiale. Non è polvere da nascondere sotto il tappeto, ma il prezzo da pagare per l’efficienza del mondo in cui viviamo. L’annotazione ci ricorda che dietro un dato c’è sempre un uomo.

Michele Gabusi