Attacco dei crawler AI a Wikimedia

Wikimedia Foundation ha annunciato un aumento esponenziale degli accessi alle risorse di Wikimedia Commons e ai vari progetti. Non è tuttavia dovuto ad una crescente sete di conoscenza degli umani, ma al vorace appetito dei crawler AI. Questo problema riguarda principalmente i siti che ospitano progetti open source.

Uso spropositato della larghezza di banda

Wikipedia è sicuramente il progetto più noto di Wikimedia Foundation. I file multimediali (immagini, video e audio) sono ospitati nella repository di Wikimedia Commons e sono liberamente accessibili a tutti. I contenuti vengono indicizzati dai bot dei motori di ricerca e mostrati nei risultati.

La fondazione ha però rilevato un aumento esponenziale delle richieste dai cosiddetti “scraping bot“, ovvero i crawler AI che collezionano automaticamente i dati su Internet per l’addestramento dei modelli di intelligenza artificiale generativa. Dal mese di gennaio 2024, l’uso della larghezza di banda è aumentata del 50% perché i crawler AI hanno “rastrellato” le immagini di Wikimedia Commons.

Wikimedia Foundation ospita i contenuti in sette data center. Quando gli utenti umani accedono spesso allo stesso articolo su Wikipedia, il contenuto viene memorizzato nella cache del data center più vicino. Se le richieste sono basse, il contenuto viene fornito dal data center principale.

I crawler AI accedono a numerose pagine nello stesso momento. Le richieste vengono quindi gestite dal data center principale e ciò causa un eccessivo consumo di risorse (il 65% del traffico proviene da questi scraping bot). In diverse occasioni, il team Site Reliability della fondazione è intervenuto per bloccare i crawler AI prima di causare problemi (rallentamenti o interruzioni del servizio).

Aggiungere il blocco al file robots.txt non serve a nulla perché molte aziende non rispettano il Robots Exclusion Protocol (in quello di Wikipedia non ci sono blocchi per i crawler AI più noti). La fondazione sottolinea che i contenuti sono gratis, ma l’infrastruttura ha un costo. L’unica fonte delle entrate sono le donazioni.

Fonte: Wikimedia

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech