SOCIETY | 20 Dic 2016

Open Data: tutti ne parlano ma…

Cosa sono i dati aperti e quanto è facile e possibile analizzarli per ottenere informazioni?

Il termine Open Data va e viene. Un po’ come le mode, riempiono i giornali in un dato periodo e spariscono in un altro, con la costante che, a prescindere da quanto se ne parli, in Italia gli Open Data sono ancora troppo pochi (e soprattutto troppo poco utili).

L’ultimo riferimento ai dati aperti arriva in questi giorni proprio dal nuovo team per la trasformazione digitale guidato da Diego Piacentini, che in un comunicato stampa afferma: La task force digitale si impegnerà a uniformare gli standard per svolgere una procedura via internet e a condividere gli open data: “Niente più silos privati di questa o quella amministrazione”.

L’Open Data quindi torna. Anche se succede che, quando chiediamo (non necessariamente ai “normali cittadini”, ma a categorie professionali potenzialmente interessate all’apertura dei dati della PA come i giornalisti) cosa siano gli Open Data, in pochissimi alzano la mano. Qualcuno ne ha sentito parlare ma non li ha mai usati per scrivere un pezzo. Qualcun altro ha raccontato la storia di una start-up che con i dati aperti avrebbe voluto fare business, ma che magari non ci è riuscita perché ne ha trovati pochi, non aggiornati o sbagliati. Qualcuno poi li confonde con i Big Data e afferma: “certo i dati sono fondamentali. Amazon per esempio li usa tantissimo”. Ma quelli non sono proprio Open Data.

Se vogliamo ripartire dalla definizione di dato aperto ci si può rifare a quella di Open Knowledge Foundation:

“Un contenuto o un dato si definisce aperto se chiunque è libero di usarlo, riusarlo, ridistribuirlo essendo soggetto, al massimo, al requisito di attribuzione e/o condivisione allo stesso modo”.

Se si volesse giocare a “Indovina chi” per Open Data si potrebbe dire:

  • è accessibile attraverso l’ICT ed è adatto a essere utilizzato automaticamente da software
  • è disponibile con licenza che ne permette l’uso da parte di chiunque
  • è in formato aperto (quindi non è salvato per esempio in un formato proprietario come .xls)
  • è gratuito o a costo marginale.

Fatto l’identikit si capisce che non sono dati aperti le determinazioni della PA pubblicate in formato .pdf (o addirittura come .pdf immagine arrivate da scansioni del cartaceo); non sono Open Data le tabelle pubblicate sui siti della PA; non sono Open Data le rielaborazioni di dati pubblicati come report statistico. Il dato, infatti, deve essere “grezzo”, non raffinato, non elaborato ma pubblicato nella sua forma più semplice e chiara affinché chiunque (anche un software o un servizio appunto) possa usarlo e farne le rielaborazioni che ritiene più utili.

Detto questo tutto sembra semplice: basta attenersi a questa definizione per avere un buon dato da pubblicare per le PA. Eppure, se analizziamo il punto di vista dei giornalisti per esempio, lavorare con i dati stanca. O sfianca a seconda dei dati che cerchiamo.

Qual è la Via Crucis dell’Open Data per i data journalist (o per chiunque sia interessato all’analisi di un dato aperto)?

Nella prima stazione il giornalista ricerca i dati aperti per poter scrivere un pezzo e non sa dove trovarli. Esiste un portale nazionale ed esistono i portali delle singole amministrazioni. Quasi sempre diversi uno dall’altro e non sempre accessibili ai non tecnici. Un aiuto può arrivare in questi casi da San Google che intercede per aiutare a trovare una strada più diretta e andare alle stazioni successive.

Nella seconda stazione il giornalista trova il dato ma questo ha interesse informativo pari a zero. Sì, perché i dati più facili da pubblicare per le PA sono proprio quelli “tranquilli” (l’elenco delle farmacie presenti, tanto per fare un esempio), che non dicono troppo dell’andamento di un ente o di un territorio (tanto meno della sua economia). I dati che non servono a nessuno se non alle PA che mettendoli nel portale Open Data incrementano il numero di dataset pubblicati.

Nella terza stazione il giornalista trova il dato ma questo è open solo nelle intenzioni del politico che l’ha annunciato, in quanto è solo un .pdf immagine. E come si può usare un dato immagine se non stampando il documento e trascrivendolo a mano in una tabella con annessa perdita di tempo e rischio di errore?

Nella quarta stazione il giornalista trova il dato ma questo è vecchio, incompleto, troppo aggregato, non aggiornato. Se ad esempio avessi bisogno di scrivere un pezzo sul turismo e trovassi numeri vecchi di due o tre anni, cosa potrei fare di quel dato? Se volessi scrivere un pezzo sulle spese della PA e trovassi un dataset enorme che un normale strumento di analisi come un foglio di calcolo non sia grado di leggerlo che senso avrebbe quel dato reso disponibile? E se trovassi i dati di rilevazione del grado di inquinamento dell’aria di una sola zona della città e non di tutte come potrei dare una informazione completa?

Nella quinta stazione il giornalista reputa il dato interessante ma questo non è ben descritto né correttamente strutturato o è difficile da rielaborare a causa del formato non corretto delle colonne. Se ad esempio il giornalista trovasse un dataset con una colonna denominata CAP_COST come riuscirebbe a interpretare correttamente il senso di quella colonna se non è pubblicato insieme al dato un file di descrizione? E se nel voler rielaborare le informazioni trovasse scritto un numero come un testo? O una data a lettere impossibile da ordinare? O con colonne replicate e informazioni diverse in posti differenti?

Nella sesta stazione il giornalista decide, nonostante le difficoltà, di scaricare i dati, rielaborarli su un foglio di calcolo, interpretarli per scrivere un pezzo. E viene crocifisso nel caso in cui ha trascritto male alla terza stazione, ha pensato che il dato fosse aggiornato ma non lo era alla quarta, ha interpretato in modo sbagliato il nome di una colonna non descritta alla quinta. E vedendo il rischio crocifissione decide che il data journalism usando dati aperti non è per lui. Che gli Open Data utili non esistono e sono una delle mode del momento con cui nessuno fa business qui (perché a mettere il naso fuori da questo Paese sembra invece sia possibile).

Se questa Via Crucis prende vita così come l’abbiamo raccontata, i giornalisti non chiederanno dati. E nemmeno i cittadini e le associazioni (la famosa Società Civile) perché non sapranno cosa siano e non ne vedranno neppure il valore in termini di informazione e neppure in nuovi servizi offerte dalle imprese. Le PA allora diranno che non vale la pena investire sull’apertura dei dati (visto che il processo di pubblicazione non è banale e richiede dispendio di energie). Così passerà la moda. Non ci saranno Open Data se non in qualche discorso fatto di buone intenzioni destinate a rimanere sulla carta (o su un blog).

E allora la frase con cui si apre il comunicato di Piacentini “Suona solo le note necessarie. Le altre cerca di non suonarle” in questo caso suonerà come un cattivo presagio. Perché l’innovazione non si fa certo suonando sempre la stessa musica fatta di poche note che qualcuno decide siano necessarie.

Sonia Montegiove