Attacco dei crawler AI a Wikimedia

Attacco dei crawler AI a Wikimedia

Wikimedia Foundation ha registrato un aumento esponenziale degli accessi da parte dei crawler AI che usano i contenuti per addestrare i modelli.
Attacco dei crawler AI a Wikimedia
Wikimedia Foundation ha registrato un aumento esponenziale degli accessi da parte dei crawler AI che usano i contenuti per addestrare i modelli.

Wikimedia Foundation ha annunciato un aumento esponenziale degli accessi alle risorse di Wikimedia Commons e ai vari progetti. Non è tuttavia dovuto ad una crescente sete di conoscenza degli umani, ma al vorace appetito dei crawler AI. Questo problema riguarda principalmente i siti che ospitano progetti open source.

Uso spropositato della larghezza di banda

Wikipedia è sicuramente il progetto più noto di Wikimedia Foundation. I file multimediali (immagini, video e audio) sono ospitati nella repository di Wikimedia Commons e sono liberamente accessibili a tutti. I contenuti vengono indicizzati dai bot dei motori di ricerca e mostrati nei risultati.

La fondazione ha però rilevato un aumento esponenziale delle richieste dai cosiddetti “scraping bot“, ovvero i crawler AI che collezionano automaticamente i dati su Internet per l’addestramento dei modelli di intelligenza artificiale generativa. Dal mese di gennaio 2024, l’uso della larghezza di banda è aumentata del 50% perché i crawler AI hanno “rastrellato” le immagini di Wikimedia Commons.

Wikimedia Foundation ospita i contenuti in sette data center. Quando gli utenti umani accedono spesso allo stesso articolo su Wikipedia, il contenuto viene memorizzato nella cache del data center più vicino. Se le richieste sono basse, il contenuto viene fornito dal data center principale.

I crawler AI accedono a numerose pagine nello stesso momento. Le richieste vengono quindi gestite dal data center principale e ciò causa un eccessivo consumo di risorse (il 65% del traffico proviene da questi scraping bot). In diverse occasioni, il team Site Reliability della fondazione è intervenuto per bloccare i crawler AI prima di causare problemi (rallentamenti o interruzioni del servizio).

Aggiungere il blocco al file robots.txt non serve a nulla perché molte aziende non rispettano il Robots Exclusion Protocol (in quello di Wikipedia non ci sono blocchi per i crawler AI più noti). La fondazione sottolinea che i contenuti sono gratis, ma l’infrastruttura ha un costo. L’unica fonte delle entrate sono le donazioni.

Fonte: Wikimedia
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
2 apr 2025
Link copiato negli appunti