Reddit ha annunciato alcune novità relative allo scraping da parte dei bot. Si tratta in pratica di un aggiornamento della policy, annunciata all’inizio di maggio, che vieta l’accesso ai dati pubblici senza autorizzazione. Il blocco verrà attuato tramite il Robot Exclusion Protocol (file robots.txt
) che (teoricamente) dovrebbe essere rispettato dai web crawler.
Accesso consentito a Google e OpenAI
La Public Content Policy di Reddit vieta l’accesso non autorizzato al servizio per la raccolta dei dati pubblici che vengono utilizzati a scopo commerciale. Anche se non specificato chiaramente, il riferimento è principalmente allo scraping effettuato dai web crawler delle aziende che sviluppano modelli di intelligenza artificiale generativa.
L’accesso è consentito solo se è presente un accordo di licenza, come quelli sottoscritti con Google a febbraio (sulla partnership potrebbe essere avviata un’indagine della FTC) e OpenAI a maggio.
Reddit ha comunicato che, nelle prossime settimane, verrà aggiornato il file robots.txt
per indicare i web crawler che possono o non possono accedere ai dati pubblici. Verranno quindi bloccati i bot sconosciuti che non rispettano la policy e quelli di aziende senza accordo di licenza.
I ricercatori e le organizzazioni non-profit (come Internet Archive) potranno ancora accedere ai contenuti pubblicati su Reddit per uso non commerciale. Nell’attuale versione del file robots.txt non c’è ancora il blocco dei bot appartenenti alle aziende IA più note. Il Robot Exclusion Protocol è utilizzato da tutti, ma il suo rispetto non è obbligatorio. Come ha scoperto Wired, Perplexity ignora il blocco e accede a tutte le pagine dei siti.