È noto che l’addestramento dei modelli di intelligenza artificiale generativa viene effettuata anche con dati pubblici raccolti su Internet. I titolari dei diritti d’autore hanno quindi presentato numerose denunce contro OpenAI e altre aziende del settore. Il Garante per la protezione dei dati personali ha avviato un’indagine per verificare l’adozione di misure per evitare il cosiddetto “web scraping“.
I siti proteggono i dati degli utenti?
I “crawler” o “spider” delle aziende che sviluppano modelli di intelligenza artificiale generativa funzionano in modo simile a quelli dei motori di ricerca. Ma invece di effettuare la scansione dei siti per mostrare i link delle pagine nei risultati di una ricerca, OpenAI, Meta, Google e altre Big Tech sfruttano il web scraping per creare i dataset usati per l’addestramento dei modelli.
Durante questa operazione vengono anche raccolti dati personali che un sito (pubblico o privato) rende accessibile per varie finalità (ad esempio per la trasparenza amministrativa). Il Garante della privacy ha quindi avviato un’indagine per verificare l’adozione (da parte dei siti) di misure adeguate ad impedire la raccolta massiva di dati personali.
Il Garante chiede inoltre alle associazioni di categoria interessate, alle associazioni di consumatori, ad esperti e rappresentanti del mondo accademico di fornire commenti e contributi sulle misure di sicurezza adottate e adottabili contro la raccolta dei dati personali per l’addestramento dei modelli di IA generativa.
Al termine dell’indagine, l’autorità valuterà se adottare o meno i necessari provvedimenti, anche in via d’urgenza. Al momento, l’unico modo per evitare lo scraping è bloccare l’accesso ai crawler nel file robots.txt
, ma poche aziende offrono questa possibilità (per ChatGPT è necessario aggiungere GPTBot).