TECH | 2 Mag

Scraping di dati dai siti: si può?

Cosa dice la giurisprudenza rispetto all'attività di raccolta dati dai siti web, ovvero al web scraping

Il tema di cui parleremo è di quelli indubbiamente molto dibattuti: il web scraping, per il quale la domanda è di quelle milionarie: è legittimo o no fare scraping di dati dai siti?

Come spesso accade, l’interlocutore/lettore si sorprende del fatto che non esista una risposta univoca, ma più risposte. Il diritto – purtroppo? per fortuna? – non è una scienza esatta, ma possiamo provare a capirne qualcosa di più insieme.

Cos’è lo scraping?

Il web scraping è una tecnica che consiste nell’utilizzare software per automatizzare il recupero dei dati di proprio interesse da specifici siti web. Il web scraping non è invece – meglio chiarirlo subito – un furto di dati ad accesso riservato: i dati recuperati sono già pubblicati/disponibili sui siti di riferimento, ma il software utilizzato è programmato per accedere a tali siti in maniera sistematica e automatizzata, a specifici intervalli programmati.

È, quindi, una tecnica simile a quella utilizzata dai motori di ricerca, che tramite bot, scraper, crawler e spider recuperano quelle informazioni che utilizzeranno, poi, per fornire servizi ai propri utenti.

Non solo: anche altri siti – i cosiddetti aggregatori, il web ne è pieno – utilizzano il web scraping per offrire agli utenti la possibilità di confrontare informazioni presenti su siti differenti. Ma su questo specifico punto torneremo più avanti.

Lo scraping è un’attività lecita in sé ma passibile di assumere differenti significati a seconda del contesto e dell’uso che può essere fatto dei dati recuperati, della specifica finalità di raccolta, in quanto astrattamente passibile di configurare diverse violazioni, dal diritto d’autore alla riservatezza dei dati personali.

Nell’esame del fenomeno non possiamo non considerare che siamo in presenza di una pluralità di interessi: l’ordinamento si occupa prevalentemente di quelli del titolare/gestore del sito, “deprivato” del valore economico dei dati/database in suo possesso o creati o, comunque, dei soggetti che hanno investito ingenti risorse per l’acquisizione legittima del consenso da parte dei titolari dei dati.

Già dall’inizio del 2000 il diritto d’oltreoceano ha conosciuto svariati ricorsi giudiziari in merito – vi dice qualcosa il caso Ebay vs Bidder’s Edge? – molti dei quali hanno interessato grandi player, come Facebook nel 2009 – nel caso specifico. Termini di Servizio accuratamente studiati permisero a Facebook di intentare una causa per violazione di copyright in danno della Power Ventures di Power.com – ed hanno visto le pronunce più disparate oscillare dalla propensione per la liceità, alla considerazione dello scraping come un brute-force attack, anche se effettuato in assenza di autenticazione all’accesso e di scopo commerciale dell’operazione di “raschiamento”. È ormai storia del diritto, sul punto, il caso di Weed, alias Andrew Auernheimer che nel 2010 fu accusato e condannato per aver creato un database di 114.000 indirizzi email dal sito di AT&T.

In Europa un’importante traccia è stata segnata dalla sentenza della Corte di Giustizia nel procedimento C-30/14 che ha visto Ryanair agire contro la PR Aviation, confermando la compatibilità con il diritto dell’Unione delle clausole contrattuali utilizzate per vietare a terzi l’utilizzo delle informazioni estrapolate da siti altrui ed aggregate per scopi commerciali.

La PR Aviation effettuava, infatti, l’estrazione sistematica ed automatizzata di informazioni di dettaglio sui voli dal sito Ryanair, pur in presenza di condizioni generali di utilizzo che vietavano espressamente la pratica dello scraping. Secondo la difesa di Ryanair tale pratica costituiva, tra l’altro, violazione del diritto d’autore e del diritto sui generis.

Il Tribunale di Utrecht, prima, e la Corte d’Appello di Amsterdam, poi, avevano respinto la richiesta di Ryanair sul presupposto che lo screen scraping costituisse un impiego del tutto normale e lecito del sito, configurando un’ipotesi di libera utilizzazione prevista dagli articoli 6 e 8 della Direttiva 96/9/CE.

La Corte, invece, nell’accogliere la richiesta della compagnia aerea ha ritenuto che la Direttiva non fosse applicabile ad una banca dati non tutelata né dal diritto d’autore né dal diritto sui generis, e che le libere utilizzazioni ”non ostano a che il creatore di una banca dati stabilisca limitazioni contrattuali”, rinviando poi al Tribunale per la verifica di quale forma di tutela fosse applicabile alla banca dati di Ryanair – diritto d’autore o costitutore della banca dati.

Della stessa questione si è occupato anche il Tribunale di Milano nel caso Viaggiare Srl c/Ryanair, con una prima pronuncia del 4 giugno 2013, n. 7825, il cui epilogo di pochi mesi fa, stabilendo la liceità dello screen scraping della banca dati di Ryanair dal sito di quest’ultima, non tutelabile sotto l’egida della Direttiva 96/9/CE: in tale ipotesi, pur se è stato riconosciuto il diritto sui generis al costitutore della banca dati Ryanair, l’attività di Viaggiare Srl non è stata ritenuta tale da ledere gli interessi commerciali del vettore aereo.

Come tutelare, invece, i titolari dei dati?

Il Decreto Legislativo n. 196/2003 – Codice “Privacy” – prevede che ciascun trattamento – ad eccezione di quelli previsti da norme di legge o regolamento – debba avere alla base il valido consenso del soggetto titolare del dato e che tale consenso sia comunque valido ed efficace solo relativamente a quello specifico trattamento. Spesso, invece, la tecnica dello scraping viene utilizzata proprio per utilizzare tali dati al di là di un valido ed efficace consenso, quindi per raccogliere e ripubblicare (quindi anche diffondere…) in rete dati personali di ignari utenti, che hanno consegnato i propri dati a specifici siti per specifiche finalità.

Ecco perché, con il provvedimento n. 4 del 14 gennaio 2016, il Garante Privacy è intervenuto per bloccare quella che ha definito una “pesca a strascico sul web”, ossia la sistematica attività di “raschiamento” di dati e informazioni relativi a milioni di utenti effettuata per finalità di telemarketing dalla società Develhop Srl, attraverso il sito tuttinumeri.it: scopo ultimo, quello di creare veri e propri elenchi telefonici al di fuori del database unico (DBU) di tutti i clienti degli operatori di telefonia nazionale e, ovviamente, al di fuori di qualsivoglia acquisizione individuale del consenso dei titolari dei dati personali. Il Garante non ha dichiarato illegittimo lo scraping di dati ma l’attività finalizzata alla creazione di database telefonici online e la cosiddetta “ricerca inversa”, se la fonte non è il DBU.

Suggerimenti operativi

Due sono gli accorgimenti che è consigliabile utilizzare:

  • prevedere nei Termini di Servizio (TOS) il divieto, da parte degli utenti/visitatori, di utilizzare tecniche di scraping per il recupero sistematico di dati e informazioni, in modo da poter più facilmente agire in giudizio per la tutela dei propri diritti nel caso di violazioni dei termini contrattuali, al fine di ottenere un provvedimento inibitorio e l’eventuale risarcimento del danno subito; in tali casi, è preferibile che l’indicazione puntuale sia evidenziata o appositamente e separatamente “flaggata” dall’utente
  • creare una sezione riservata, consentendo l’accesso solo previa registrazione. In tali casi l’attività di scraping verrebbe a configurarsi quale vero e proprio accesso abusivo ad un sistema informatico, perseguibile ai sensi dell’articolo 615-ter del codice penale (“Chiunque abusivamente si introduce in un sistema informatico o telematico protetto da misure di sicurezza ovvero vi si mantiene contro la volontà espressa o tacita di chi ha il diritto di escluderlo, è punito con la reclusione fino a tre anni “).

Mai dimenticare, quindi, che tali attività non devono essere un mero esercizio, ma andrebbero effettuate solo dopo opportune valutazioni o in presenza delle necessarie autorizzazioni.

E che la giurisprudenza, come visto anche dall’attività del Garante, è in continua evoluzione. Pertanto, prestare la massima attenzione.

Morena Rangone