Bluesky: sviluppatore crea un dataset AI di post

Bluesky ha promesso che non userà mai i post degli utenti per l’addestramento dei modelli di intelligenza artificiale. Tuttavia, come ipotizzato, non può impedire lo scraping tramite API. Uno sviluppatore ha infatti creato un dataset con un milione di post (pubblicato su Hugging Face e successivamente rimosso).

Il Robots Exclusion Protocol non è efficace

Bluesky ha sfruttato a proprio vantaggio gli “errori” della concorrenza. Dopo l’elezione di Donald Trump (appoggiato da Elon Musk) e l’introduzione dei nuovi termini di servizio che autorizzano l’uso dei post per il training dei modelli AI, molti utenti hanno abbandonato X e scelto la piattaforma dell’azienda guidata da Jay Graber (oggi sono quasi 23 milioni).

Bluesky ha subito comunicato che non utilizzerà mai i contenuti degli utenti. Uno sviluppatore (Daniel van Strien) ha sfruttato le firehose API per creare un dataset composto da un milione di post. Per ogni post è presente testo, data di pubblicazione e autore. I dati non sono anonimi perché è indicato il DID (decentralized identifier) di ogni utente. Usando il tool sviluppato da van Strien si può associare un handle al DID corrispondente.

Il dataset era stato pubblicato su Hugging Face e poteva essere sfruttato a scopo di ricerca per addestrare i modelli AI. Lo sviluppatore ha successivamente rimosso il dataset e chiesto scusa per aver violato i principi di trasparenza e consenso.

Bluesky ha quindi fornito un aggiornamento sulla questione. Come altri siti web, l’azienda californiana potrebbe usare il Robots Exclusion Protocol per impedire l’accesso ai post degli utenti tramite il file robots.txt (che attualmente non blocca nulla), ma il protocollo non è efficace (non c’è l’obbligo di rispettarlo). Verranno quindi valutate le soluzioni più adatte per impedire lo scraping.

Fonte: 404 Media

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech