È noto che i modelli di intelligenza artificiale generativa vengono addestrati con i contenuti pubblicati su Internet (spesso anche quelli protetti dal diritto d’autore). Alcune aziende non rispettano il Robots Exclusion Protocol (il blocco aggiunto al file robots.txt
), quindi Cloudflare ha sviluppato una soluzione più efficace: AI Labyrinth.
Come funziona AI Labyrinth
Lo scraping dei dati per l’addestramento dei modelli AI viene effettuato con specifici crawler. Cloudflare ha rilevato oltre 50 miliardi di richieste al giorno. L’azienda californiana offre diversi tool per identificare e bloccare questi bot AI, ma le aziende possono implementare misure per aggirare i controlli.
Visto che i crawler cercano contenuti per “sfamare” i modelli, Cloudflare ha deciso di passare all’attacco, offrendo loro contenuti generati dall’AI. Quando viene rilevato lo scraping non autorizzato, AI Labyrinth porta il bot verso pagine web “spazzatura”. L’azienda che ha sviluppato il crawler spreca così tempo e risorse.
I contenuti AI generati da Cloudflare coprono diversi argomenti. Non sono fake news che possono contribuire alla disinformazione. Sono contenuti reali, ma non rilevanti per il crawler (diversi da quelli che avrebbe trovato sul sito target). I link alle pagine HTML sono visibili solo ai bot AI, non ai visitatori umani.
Gli utenti possono attivare AI Labyrinth nella sezione della dashboard di Cloudflare dedicata alla protezione del traffico. L’obiettivo principale del tool è confondere i bot. Ma è anche un honeypot di nuova generazione. Gli honeypot sono utilizzati come esca per i cybercriminali. In questo caso vengono utilizzati per intrappolare i crawler AI in un labirinto.