Molti siti bloccano il crawler IA di Apple

Molti siti bloccano il crawler IA di Apple

Molti siti hanno bloccato Applebot-Extended, il crawler usato da Apple per raccogliere dati pubblici per l'addestramento dei modelli di IA generativa.
Molti siti bloccano il crawler IA di Apple
Molti siti hanno bloccato Applebot-Extended, il crawler usato da Apple per raccogliere dati pubblici per l'addestramento dei modelli di IA generativa.

Circa due mesi fa, Apple aveva comunicato che i suoi modelli di intelligenza artificiale generativa sono addestrati con dati ottenuti tramite licenza e dati pubblici. Questi ultimi vengono prelevati da Internet con Applebot-Extended. Wired ha scoperto che molti editori e aziende tech hanno bloccato il crawler per impedire lo scraping non autorizzato. Le prime funzionalità di Apple Intelligence saranno disponibili ad ottobre (non in Europa).

Molti siti bloccano Applebot-Extended

L’azienda di Cupertino usa da circa 9 anni il crawler Applebot per le funzionalità di ricerca di Safari, Siri e Spotlight. Per effettuare la scansione dei siti e raccogliere i dati pubblici che servono all’addestramento dei modelli di IA generativa viene invece sfruttato il crawler Applebot-Extended.

La distinzione è necessaria perché gli editori vogliono che i loro contenuti siano mostrati nei prodotti Apple, ma non usati per il training dei modelli. Wired ha scoperto che Applebot-Extended viene bloccato da Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, USA Today e Condé Nast (editore di Wired). Nel file robots.txt sono quindi presenti queste due righe:

User-agent: Applebot-Extended
Disallow: /private/

Facebook e Instagram impediscono la scansione dei contenuti pubblici degli utenti perché Apple è un diretto concorrente. Meta AI utilizza infatti gli stessi dati (non in Europa, dove la raccolta è stata sospesa). Una portavoce di Apple ha dichiarato che Applebot-Extended è un modo per rispettare i diritti degli editori. Ovviamente nulla vieta di sottoscrivere accordi di licenza.

Il rispetto del Robots Exclusion Protocol non è tuttavia obbligatorio. Infatti viene ignorato da Perplexity, Anthropic e altre startup (anche NVIDIA effettua lo scraping non autorizzato).

Fonte: Wired
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
30 ago 2024
Link copiato negli appunti