In molti compiti i classificatori basati sulle reti neurali superano spesso il livello di accuratezza degli esseri umani, ma al momento sono suscettibili all’ adversarial attack : un attacco che consiste nel sottoporre all’AI input attentamente perturbati che la inducono a modificare il suo riconoscimento da quello corretto ad uno scelto arbitrariamente.
Quando generati con metodi standard questi input non riescono a ingannare un classificatore nel mondo reale, a causa dei cambiamenti di prospettiva, rumori di camera e altre trasformazioni naturali.
Ad esempio nelle immagini seguenti si può vedere come un semplice gattino possa essere scambiato, grazie alla perturbazione dell’immagine, per della salsa guacamole, ma una minima rotazione dell’immagine permette la corretta identificazione.
Alcuni studenti di Labsix del MIT hanno creato un algoritmo che permette di creare immagini 2D e 3D che siano in grado di ingannare una rete neurale anche nel mondo reale, sia da diverse angolazioni che sotto trasformazioni quali sfocatura, rotazioni o traslazioni.
Durante gli esperimenti gli studenti hanno creato due immagini 3D, una tartaruga e una palla da baseball, con lo scopo di ingannare il classificatore di immagini di Google Inception-v3 reso disponibile gratuitamente ai ricercatori.
Durante gli esperimenti la palla da baseball è stata classificata dalla rete neurale come del caffè espresso, mentre la tartaruga veniva classificata come un fucile per la maggior parte delle angolazioni.
Labsix ha chiamato il suo metodo Expectation Over Transformation . È importante notare che per lo sviluppo dell’algoritmo i ricercatori hanno avuto bisogno dell’accesso completo all’algoritmo di classificazione di Google per identificarne le debolezze e riuscire a ingannarlo, tuttavia il team sta lavorando per riuscire a utilizzare queste tecniche anche in condizioni di black box. Al momento in cui scriviamo Google non ha commentato i risultati dei test.
Gli adversarial attack di questo tipo non sono ancora un pericolo imminente per il grande pubblico; sono efficaci limitatamente a certe circostanze, ma sono comunque un segno della non infallibilità delle AI che, se non risolti, potrebbero in futuro creare danni in molti campi tra cui le tecniche di riconoscimento facciale e i sistemi di guida autonoma.
Ilaria Di Maro