Google ha aggiornato le norme sulla privacy per chiarire che i dati pubblici degli utenti possono essere utilizzati per l’addestramento dei modelli IA, come quello alla base di Bard. Questo tipo di informazione dovrebbe diventare obbligatoria con l’entrata in vigore della legga AI Act. Tuttavia il chatbot dell’azienda di Mountain View non è ancora accessibile in Europa proprio per questioni di privacy.
Dati pubblici in pasto all’IA
La nuova versione della policy è stata pubblicata il 1 luglio. Come molti sanno, OpenAI “rastrella” i dati da Internet per il training di ChatGPT. Anche Google ha ora confermato questa attività di scraping in ottica di trasparenza e obblighi di legge. Fino al 30 giugno, nella sezione “Fonti accessibili pubblicamente” era scritto:
Ad esempio, potremmo raccogliere informazioni pubblicamente disponibili online o da altre fonti pubbliche per contribuire all’addestramento dei modelli linguistici di Google e alla creazione di funzionalità quali Google Traduttore. Oppure, se le informazioni della tua attività vengono visualizzate su un sito web, potremmo indicizzarle e visualizzarle sui servizi Google.
Nella versione aggiornata il 1 luglio è scritto:
Ad esempio, potremmo raccogliere informazioni pubblicamente disponibili online o da altre fonti pubbliche per contribuire all’addestramento dei modelli di AI di Google e alla creazione di prodotti e funzionalità quali Google Traduttore, Bard e funzionalità AI Cloud. Oppure, se le informazioni della tua attività vengono visualizzate su un sito web, potremmo indicizzarle e visualizzarle sui servizi Google.
L’azienda di Mountain View ha quindi specificato che i dati pubblici degli utenti possono essere utilizzati per addestrare i modelli IA. Per dati pubblici non si intendono solo quelli disponibili sui servizi di Google, ma tutti quelli condivisi online. Gli utenti devono quindi prestare molta attenzione alle informazioni sensibili pubblicate su blog, forum o social media.
Uno studio legale statunitense ha recentemente denunciato OpenAI e Microsoft per aver “rubato” i dati degli utenti senza il loro consenso. Twitter ha limitato la lettura dei tweet per bloccare lo scraping dei dati.
Aggiornamento (5/07/2023)
Riceviamo e pubblichiamo uno statement di Google relativo alla notizia riportata:
Le nostre norme sulla privacy sono da tempo trasparenti sul fatto che Google utilizza informazioni pubblicamente disponibili dal web per addestrare modelli linguistici per servizi come Google Translate. Questo ultimo aggiornamento chiarisce semplicemente che sono inclusi anche servizi più recenti come Bard. Incorporiamo i principi e le misure di salvaguardia della privacy nello sviluppo delle nostre tecnologie di intelligenza artificiale, in linea con i nostri Principi sull’IA.