Bluesky: sviluppatore crea un dataset AI di post

Bluesky: sviluppatore crea un dataset AI di post

Uno sviluppatore ha usato le API di Bluesky per creare un dataset con un milione di post, pubblicato su Hugging Face e successivamente rimosso.
Bluesky: sviluppatore crea un dataset AI di post
Uno sviluppatore ha usato le API di Bluesky per creare un dataset con un milione di post, pubblicato su Hugging Face e successivamente rimosso.

Bluesky ha promesso che non userà mai i post degli utenti per l’addestramento dei modelli di intelligenza artificiale. Tuttavia, come ipotizzato, non può impedire lo scraping tramite API. Uno sviluppatore ha infatti creato un dataset con un milione di post (pubblicato su Hugging Face e successivamente rimosso).

Il Robots Exclusion Protocol non è efficace

Bluesky ha sfruttato a proprio vantaggio gli “errori” della concorrenza. Dopo l’elezione di Donald Trump (appoggiato da Elon Musk) e l’introduzione dei nuovi termini di servizio che autorizzano l’uso dei post per il training dei modelli AI, molti utenti hanno abbandonato X e scelto la piattaforma dell’azienda guidata da Jay Graber (oggi sono quasi 23 milioni).

Bluesky ha subito comunicato che non utilizzerà mai i contenuti degli utenti. Uno sviluppatore (Daniel van Strien) ha sfruttato le firehose API per creare un dataset composto da un milione di post. Per ogni post è presente testo, data di pubblicazione e autore. I dati non sono anonimi perché è indicato il DID (decentralized identifier) di ogni utente. Usando il tool sviluppato da van Strien si può associare un handle al DID corrispondente.

Il dataset era stato pubblicato su Hugging Face e poteva essere sfruttato a scopo di ricerca per addestrare i modelli AI. Lo sviluppatore ha successivamente rimosso il dataset e chiesto scusa per aver violato i principi di trasparenza e consenso.

Bluesky ha quindi fornito un aggiornamento sulla questione. Come altri siti web, l’azienda californiana potrebbe usare il Robots Exclusion Protocol per impedire l’accesso ai post degli utenti tramite il file robots.txt (che attualmente non blocca nulla), ma il protocollo non è efficace (non c’è l’obbligo di rispettarlo). Verranno quindi valutate le soluzioni più adatte per impedire lo scraping.

Fonte: 404 Media
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
27 nov 2024
Link copiato negli appunti