Molti siti bloccano il crawler IA di Apple

Circa due mesi fa, Apple aveva comunicato che i suoi modelli di intelligenza artificiale generativa sono addestrati con dati ottenuti tramite licenza e dati pubblici. Questi ultimi vengono prelevati da Internet con Applebot-Extended. Wired ha scoperto che molti editori e aziende tech hanno bloccato il crawler per impedire lo scraping non autorizzato. Le prime funzionalità di Apple Intelligence saranno disponibili ad ottobre (non in Europa).

Molti siti bloccano Applebot-Extended

L’azienda di Cupertino usa da circa 9 anni il crawler Applebot per le funzionalità di ricerca di Safari, Siri e Spotlight. Per effettuare la scansione dei siti e raccogliere i dati pubblici che servono all’addestramento dei modelli di IA generativa viene invece sfruttato il crawler Applebot-Extended.

La distinzione è necessaria perché gli editori vogliono che i loro contenuti siano mostrati nei prodotti Apple, ma non usati per il training dei modelli. Wired ha scoperto che Applebot-Extended viene bloccato da Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, USA Today e Condé Nast (editore di Wired). Nel file robots.txt sono quindi presenti queste due righe:

User-agent: Applebot-Extended
Disallow: /private/

Facebook e Instagram impediscono la scansione dei contenuti pubblici degli utenti perché Apple è un diretto concorrente. Meta AI utilizza infatti gli stessi dati (non in Europa, dove la raccolta è stata sospesa). Una portavoce di Apple ha dichiarato che Applebot-Extended è un modo per rispettare i diritti degli editori. Ovviamente nulla vieta di sottoscrivere accordi di licenza.

Il rispetto del Robots Exclusion Protocol non è tuttavia obbligatorio. Infatti viene ignorato da Perplexity, Anthropic e altre startup (anche NVIDIA effettua lo scraping non autorizzato).

Fonte: Wired

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech