Reddit annuncia novità per bloccare lo scraping IA

Reddit ha annunciato alcune novità relative allo scraping da parte dei bot. Si tratta in pratica di un aggiornamento della policy, annunciata all’inizio di maggio, che vieta l’accesso ai dati pubblici senza autorizzazione. Il blocco verrà attuato tramite il Robot Exclusion Protocol (file robots.txt) che (teoricamente) dovrebbe essere rispettato dai web crawler.

Accesso consentito a Google e OpenAI

La Public Content Policy di Reddit vieta l’accesso non autorizzato al servizio per la raccolta dei dati pubblici che vengono utilizzati a scopo commerciale. Anche se non specificato chiaramente, il riferimento è principalmente allo scraping effettuato dai web crawler delle aziende che sviluppano modelli di intelligenza artificiale generativa.

L’accesso è consentito solo se è presente un accordo di licenza, come quelli sottoscritti con Google a febbraio (sulla partnership potrebbe essere avviata un’indagine della FTC) e OpenAI a maggio.

Reddit ha comunicato che, nelle prossime settimane, verrà aggiornato il file robots.txt per indicare i web crawler che possono o non possono accedere ai dati pubblici. Verranno quindi bloccati i bot sconosciuti che non rispettano la policy e quelli di aziende senza accordo di licenza.

I ricercatori e le organizzazioni non-profit (come Internet Archive) potranno ancora accedere ai contenuti pubblicati su Reddit per uso non commerciale. Nell’attuale versione del file robots.txt non c’è ancora il blocco dei bot appartenenti alle aziende IA più note. Il Robot Exclusion Protocol è utilizzato da tutti, ma il suo rispetto non è obbligatorio. Come ha scoperto Wired, Perplexity ignora il blocco e accede a tutte le pagine dei siti.

Fonte: Reddit

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech