Reddit ha annunciato una nuova policy per l’accesso ai contenuti pubblici. L’azienda statunitense guidata da Steve Huffman ha elencato una serie di regole che devono essere rispettate, introducendo accordi di licenza per evitare l’uso non autorizzato dei dati da parte di terze parti, inclusi gli sviluppatori di modelli di intelligenza artificiale generativa.
Serve una licenza per i dati pubblici
Reddit ha già due policy. Quella sulla privacy che spiega come vengono gestiti i dati degli utenti e quella che stabilisce regole sui contenuti e comportamenti consentiti sulla piattaforma. La nuova Public Content Policy fornisce informazioni sull’accesso ai dati pubblici e introduce accordi di licenza simili a quello sottoscritto con Google a fine febbraio.
Reddit sottolinea che la maggioranza dei contenuti è pubblica e accessibile a tutti, anche senza account. L’azienda ha tuttavia notato che molte “entità commerciali” accedono al servizio e raccolgono dati pubblici attraverso data broker o scraping, come avviene per l’addestramento di modelli di IA generativa. In questo caso, i dati sono usati a scopo commerciale, senza riguardo per i diritti e la privacy degli utenti.
Per evitare abusi è necessario sottoscrivere un accordo di licenza. Reddit può così sapere chi accede ai dati, verificare il rispetto delle regole ed eventualmente aggiungere restrizioni contrattuali, oltre a quella già applicate, come il divieto di usare contenuti cancellati, accedere ai contenuti per adulti e creare profili degli utenti in base a stato di salute, condizione finanziaria, razza, orientamento sessuale, convinzioni politiche o religiose.
I ricercatori possono accedere liberamente ai dati pubblici per scopi non commerciali. Reddit rilascerà tool specifici nelle prossime settimane. Nel frattempo è stato aperto il subreddit r/reddit4researchers.