È noto che l’addestramento dei modelli di intelligenza artificiale generativa viene effettuata con dati pubblici, inclusi i contenuti di molti editori. Wired ha notato che sempre meno siti web bloccano GPTBot, il crawler usato da OpenAI per lo scraping. Ciò è dovuto anche agli accordi commerciali sottoscritti dall’azienda guidata da Sam Altman.
Meno blocchi per GPTBot
Per impedire l’accesso all’intero sito web o alle singole sezioni è possibile aggiungere il crawler IA al file robots.txt
, sfruttando quindi il Robots Exclusion Protocol (che non tutti rispettano). Il più noto è sicuramente GPTBot, il crawler usato da OpenAI per “sfamare” i modelli GPT, sempre più grandi e potenti.
A partire da agosto 2023, il numero di siti che hanno bloccato GPTBot è costantemente aumentato fino a raggiungere un terzo dei 1.000 siti di news più popolari. Oggi il numero è sceso ad un quarto. Considerando solo un ristretto numero di siti più popolari, la percentuale di blocco è diminuita in un anno dal 90% al 50%.
Ciò è dovuto principalmente agli accordi commerciali sottoscritti da OpenAI con vari editori, tra cui Financial Times, TIME, The Atlantic, Vox Media, News Corp e Condé Nast. In Italia è stato firmato un accordo con il gruppo GEDI.
Alcuni editori hanno eliminato il blocco lo stesso giorno dell’annuncio, mentre altri alcune settimane dopo. GEDI non ha ancora rimosso il blocco dai siti di La Repubblica e La Stampa. OpenAI ha tuttavia confermato che, dopo la sottoscritto dell’accordo, il crawler non serve più perché viene usato un feed diretto. Al momento, l’azienda californiana ha avviato partnership con 12 editori.