TECH | 13 Apr 2017

Data mining: il valore dell’analisi dei dati nell’esperienza INAIL

L'efficacia delle politiche attuate grazie ai contributi dell'Ente misurata attraverso l'analisi dei dati

Il patrimonio informativo istituzionale INAIL è indubbiamente molto vasto e aumenta quotidianamente in modo esponenziale, essendo alimentato da fonti di diversa natura. La ricerca del dato utile e funzionale a una corretta interpretazione dei diversi fenomeni risulta pertanto complicata e a volte incapace di fornire una corretta vision d’insieme utile alla data governance.

“Una delle domande alle quali volevamo dare risposta – afferma Giuseppe Morinelli, coordinatore centrale prevenzione INAIL  era quella riferita alla efficacia sulla salute dei lavoratori delle politiche prevenzionali attuate grazie ai contributi INAIL. Risposta che, grazie al lavoro di text mining e data mining realizzato con il gruppo di lavoro composto da esperti INAIL e data scientist Engineering, ci ha portato a capire che l’andamento infortunistico nelle aziende che avevano partecipato a bandi per incentivi INAIL è di tre volte più basso rispetto alle altre”.

L’applicazione di tecniche di Text mining e Data mining all’interno dell’Istituto, con un percorso di analisi relativo agli impatti derivanti l’emanazione e l’attuazione dei bandi ISI in materia di prevenzione degli infortuni sul lavoro, ha aperto un nuovo scenario garantendo un’esplorazione approfondita ed esauriente del dato, mettendo in luce significativi ambiti di analisi.

Il contesto

A partire dal 2010, l’INAIL ha avviato meccanismi di sostegno economico alle imprese per favorire l’adeguamento di strutture, macchinari, impianti e modelli organizzativi alle norme di salute e sicurezza sul lavoro in attuazione dei decreti 81/2008 e 106/2009.

Ogni anno viene pubblicato un bando che definisce le modalità di accesso ai fondi messi a disposizione dall’Istituto stesso e/o da enti esterni e i cui dati sono gestiti da un software applicativo.
In questo modo si viene a generare una rilevante quantità di dati e documentazione tecnica e amministrativa relativa alla singola domanda di partecipazione al bando, per cui è possibile caratterizzare ogni singolo progetto in base a molteplici parametri.

Analisi dei dati

Vista l’esigenza di monitorare gli effetti sugli infortuni degli interventi realizzati a seguito di aggiudicazione del bando ISI, è stato costituito un gruppo di lavoro INAIL-Engineering che ha messo il dato al centro del processo di analisi. Si è partiti con lo studio dei dati riferiti 2010, primo anno di istituzione del bando che garantiva un giusto lasso di tempo necessario al monitoraggio statistico degli infortuni.

Le fasi del processo di analisi

Diverse sono state le fasi di lavorazione del flusso di dati:

  • Data Preparation, che aveva l’obiettivo di estrarre dati dai database e documentare le diverse fonti oltre che fare attività di collegamento tra le diverse strutture dati.
  • Preprocessing OCR, ovvero l’estrazione dei testi da documenti di interesse e identificazione degli elementi di testo utili all’analisi.
  • Preprocessing Generale, in cui si sono preparati i dati per essere analizzati da specifici software.
  • Analisi descrittiva, che aveva l’obiettivo di descrivere i dati con tecniche statistiche per evidenziare le caratteristiche di base.
  • Data Mining, in cui si sono identificate le cause alla base dei fenomeni che caratterizzano il Sistema ISI, si sono fatte previsioni di grandezze di interesse e si sono individuate azioni correttive.

L’estrazione complessa di informazioni implicite precedentemente sconosciute e l’applicazione di tecniche di riconoscimento di pattern significativi all’interno del dato strutturato hanno messo in risalto modelli ricorrenti (o a volte significativi anche per la loro eccezionalità) che hanno guidato l’utente verso nuovi scenari decisionali.

“Per la prima volta – continua Morinelli – abbiamo utilizzato tecniche di text mining e data mining andando a prelevare dati da diversi database e documenti e, attraverso il text mining, abbiamo rilevato legami interni tra i dati non evincibili immediatamente”.

Il tutto per poter estrapolare informazioni da fonti diverse e apparentemente non legate tra loro, conoscere così gli effetti di una misura e disporre quindi di strumenti utili a prendere decisioni basate sui dati.

Perché, come aveva affermato il responsabile della Direzione Centrale per l’Organizzazione Digitale INAIL Stefano Tomasini in una intervista per Ingenium, “I dati e i servizi della PA devono cogliere l’obiettivo, tecnologicamente alla portata, di cambiare in meglio la vita delle persone e in futuro le PA”.