Circa due mesi fa, Apple aveva comunicato che i suoi modelli di intelligenza artificiale generativa sono addestrati con dati ottenuti tramite licenza e dati pubblici. Questi ultimi vengono prelevati da Internet con Applebot-Extended. Wired ha scoperto che molti editori e aziende tech hanno bloccato il crawler per impedire lo scraping non autorizzato. Le prime funzionalità di Apple Intelligence saranno disponibili ad ottobre (non in Europa).
Molti siti bloccano Applebot-Extended
L’azienda di Cupertino usa da circa 9 anni il crawler Applebot per le funzionalità di ricerca di Safari, Siri e Spotlight. Per effettuare la scansione dei siti e raccogliere i dati pubblici che servono all’addestramento dei modelli di IA generativa viene invece sfruttato il crawler Applebot-Extended.
La distinzione è necessaria perché gli editori vogliono che i loro contenuti siano mostrati nei prodotti Apple, ma non usati per il training dei modelli. Wired ha scoperto che Applebot-Extended viene bloccato da Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, USA Today e Condé Nast (editore di Wired). Nel file robots.txt
sono quindi presenti queste due righe:
User-agent: Applebot-Extended
Disallow: /private/
Facebook e Instagram impediscono la scansione dei contenuti pubblici degli utenti perché Apple è un diretto concorrente. Meta AI utilizza infatti gli stessi dati (non in Europa, dove la raccolta è stata sospesa). Una portavoce di Apple ha dichiarato che Applebot-Extended è un modo per rispettare i diritti degli editori. Ovviamente nulla vieta di sottoscrivere accordi di licenza.
Il rispetto del Robots Exclusion Protocol non è tuttavia obbligatorio. Infatti viene ignorato da Perplexity, Anthropic e altre startup (anche NVIDIA effettua lo scraping non autorizzato).