OpenAI: cos'è il crawler GPTBot e come bloccarlo

I modelli IA come quelli linguistici della famiglia GPT, alla base di ChatGPT e di altri servizi, sono stati istruiti da OpenAI anche e sopratutto sulla base delle informazioni raccolte online tramite scraping: oggi l’organizzazione spiega il funzionamento di GPTBot, un crawler messo a punto proprio a tale scopo. I gestori dei siti hanno modo di escludere le loro pagine dall’azione dell’agente, attraverso il file robots.txt.

GPTBot è il crawler di OpenAI per i modelli GPT

All’interno della documentazione ufficiale si legge che Le pagine Web sottoposte a scansione con l’agente GPTBot potrebbero potenzialmente essere utilizzate per migliorare i modelli futuri e sono filtrate per rimuovere le fonti che richiedono un accesso con paywall, quelle che contengono informazioni di identificazione personale o con testo in violazione delle nostre policy. L’involontaria capacità di aggirare i paywall è ciò che, a inizio luglio, ha portato al blocco della funzionalità Browser with Bing di ChatGPT.

Permettendo l’accesso alle proprie risorse, si tende una mano a OpenAI, consentendo di analizzarle ed eventualmente di includerle nel processo di addestramento dei modelli GPT: Consentire a GPTBot l’accesso al tuo sito può aiutare a rendere i modelli IA più accurati e a migliorare le loro abilità generali e la sicurezza.

Come scritto in apertura, l’operazione può essere impedita semplicemente includendo quanto segue nel file robots.txt.

User-agent: GPTBot Disallow: /

Allo stesso modo, può essere configurato un accesso selettivo alle directory.

User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/

Le richieste di GPTBot ai siti Web sono generate da indirizzi IP specifici, riportati in un elenco ospitato dal sito di OpenAI.

La domanda che molti si porranno, più che legittima, è: perché mai converrebbe consentire al crawler l’accesso alle proprie risorse? Dopotutto, i servizi come ChatGPT che impiegano i modelli istruiti, non veicolano traffico (a differenza, ad esempio, dei motori di ricerca) né citano la fonte delle informazioni fornite agli utenti. Dovranno prima o poi essere considerate anche le richieste di chi avanza pretese sulla monetizzazione dell’attività di OpenAI costruita sulla base delle proprie informazioni.

Fonte: OpenAI

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech