Reddit annuncia novità per bloccare lo scraping IA

Reddit annuncia novità per bloccare lo scraping IA

Reddit ha comunicato che bloccherà lo scraping dei dati pubblici tramite Robot Exclusion Protocol, se non è stato sottoscritto un accordo di licenza.
Reddit annuncia novità per bloccare lo scraping IA
Reddit ha comunicato che bloccherà lo scraping dei dati pubblici tramite Robot Exclusion Protocol, se non è stato sottoscritto un accordo di licenza.

Reddit ha annunciato alcune novità relative allo scraping da parte dei bot. Si tratta in pratica di un aggiornamento della policy, annunciata all’inizio di maggio, che vieta l’accesso ai dati pubblici senza autorizzazione. Il blocco verrà attuato tramite il Robot Exclusion Protocol (file robots.txt) che (teoricamente) dovrebbe essere rispettato dai web crawler.

Accesso consentito a Google e OpenAI

La Public Content Policy di Reddit vieta l’accesso non autorizzato al servizio per la raccolta dei dati pubblici che vengono utilizzati a scopo commerciale. Anche se non specificato chiaramente, il riferimento è principalmente allo scraping effettuato dai web crawler delle aziende che sviluppano modelli di intelligenza artificiale generativa.

L’accesso è consentito solo se è presente un accordo di licenza, come quelli sottoscritti con Google a febbraio (sulla partnership potrebbe essere avviata un’indagine della FTC) e OpenAI a maggio.

Reddit ha comunicato che, nelle prossime settimane, verrà aggiornato il file robots.txt per indicare i web crawler che possono o non possono accedere ai dati pubblici. Verranno quindi bloccati i bot sconosciuti che non rispettano la policy e quelli di aziende senza accordo di licenza.

I ricercatori e le organizzazioni non-profit (come Internet Archive) potranno ancora accedere ai contenuti pubblicati su Reddit per uso non commerciale. Nell’attuale versione del file robots.txt non c’è ancora il blocco dei bot appartenenti alle aziende IA più note. Il Robot Exclusion Protocol è utilizzato da tutti, ma il suo rispetto non è obbligatorio. Come ha scoperto Wired, Perplexity ignora il blocco e accede a tutte le pagine dei siti.

Fonte: Reddit
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
26 giu 2024
Link copiato negli appunti