I modelli IA come quelli linguistici della famiglia GPT, alla base di ChatGPT e di altri servizi, sono stati istruiti da OpenAI anche e sopratutto sulla base delle informazioni raccolte online tramite scraping: oggi l’organizzazione spiega il funzionamento di GPTBot, un crawler messo a punto proprio a tale scopo. I gestori dei siti hanno modo di escludere le loro pagine dall’azione dell’agente, attraverso il file robots.txt
.
GPTBot è il crawler di OpenAI per i modelli GPT
All’interno della documentazione ufficiale si legge che Le pagine Web sottoposte a scansione con l’agente GPTBot potrebbero potenzialmente essere utilizzate per migliorare i modelli futuri e sono filtrate per rimuovere le fonti che richiedono un accesso con paywall, quelle che contengono informazioni di identificazione personale o con testo in violazione delle nostre policy
. L’involontaria capacità di aggirare i paywall è ciò che, a inizio luglio, ha portato al blocco della funzionalità Browser with Bing di ChatGPT.
Permettendo l’accesso alle proprie risorse, si tende una mano a OpenAI, consentendo di analizzarle ed eventualmente di includerle nel processo di addestramento dei modelli GPT: Consentire a GPTBot l’accesso al tuo sito può aiutare a rendere i modelli IA più accurati e a migliorare le loro abilità generali e la sicurezza
.
Come scritto in apertura, l’operazione può essere impedita semplicemente includendo quanto segue nel file robots.txt
.
User-agent: GPTBot
Disallow: /
Allo stesso modo, può essere configurato un accesso selettivo alle directory.
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Le richieste di GPTBot ai siti Web sono generate da indirizzi IP specifici, riportati in un elenco ospitato dal sito di OpenAI.
La domanda che molti si porranno, più che legittima, è: perché mai converrebbe consentire al crawler l’accesso alle proprie risorse? Dopotutto, i servizi come ChatGPT che impiegano i modelli istruiti, non veicolano traffico (a differenza, ad esempio, dei motori di ricerca) né citano la fonte delle informazioni fornite agli utenti. Dovranno prima o poi essere considerate anche le richieste di chi avanza pretese sulla monetizzazione dell’attività di OpenAI costruita sulla base delle proprie informazioni.