Oggi è facile imbattersi nelle immagini sorprendenti generate dell’intelligenza artificiale come un astronauta a cavallo o un avocado seduto sulla sedia di un terapeuta. I modelli IA text-to-image, infatti, mirano a tradurre in rappresentazioni visive qualsiasi testo venga loro fornito. Ma questi sistemi sono davvero così bravi a comprendere le richieste come sembra?
I limiti nascosti nella valutazione dei modelli text-to-image
Un recente studio condotto da Google DeepMind mette in luce i limiti che si nascondono nei metodi attuali di valutazione delle prestazioni dei modelli di AI text-to-image. La ricerca, pubblicata sul server di preprint arXiv, introduce un nuovo approccio chiamato “Gecko“, che promette una valutazione più completa e affidabile di questa tecnologia in rapida evoluzione.
Il team di DeepMind avverte che, nonostante la crescente onnipresenza dei modelli generativi text-to-image, le immagini generate non sempre risultano in linea con le richieste specifiche. Le serie di dati e le metriche automatiche utilizzate attualmente per valutare le capacità di modelli come DALL-E, Midjourney e Stable Diffusion non forniscono un quadro completo. Le valutazioni umane su piccola scala offrono una visione limitata, mentre le metriche automatiche possono non cogliere sfumature importanti e persino essere in disaccordo con i giudizi umani.
Gecko: un nuovo benchmark per mettere alla prova i modelli text-to-image
Per affrontare questi problemi, i ricercatori hanno sviluppato Gecko, una nuova suite di benchmark che sfida i modelli text-to-image con 2.000 richieste di testo, sondando un’ampia gamma di abilità e livelli di complessità. Le richieste sono suddivise in sotto-abilità specifiche, andando oltre le categorie vaghe per individuare i punti deboli che ostacolano un modello.
Olivia Wiles, coautrice dello studio, spiega che questo benchmark basato sulle competenze consente di individuare non solo quali abilità risultano impegnative, ma anche a quale livello di complessità un’abilità diventa tale.
I ricercatori hanno raccolto oltre 100.000 valutazioni umane sulle immagini generate da diversi modelli AI in risposta alle richieste di Gecko. Questo volume senza precedenti di dati di feedback su diversi modelli e strutture di valutazione permette di distinguere se le lacune derivano dai limiti reali dei modelli, da richieste ambigue o da metodi di valutazione incoerenti.
Inoltre, Gecko presenta una metrica di valutazione automatica migliorata, basata sulle risposte alle domande, che si allinea maggiormente ai giudizi umani rispetto alle metriche esistenti. Quando utilizzata per confrontare i modelli più avanzati sul nuovo benchmark, questa combinazione ha rivelato differenze precedentemente non rilevate nei loro punti di forza e di debolezza.
L’importanza di testare i modelli AI text-to-image
I ricercatori sperano che il loro lavoro dimostri l’importanza di utilizzare diversi benchmark e approcci di valutazione per capire veramente cosa può o non può fare l’intelligenza artificiale text-to-image prima di distribuirla nel mondo reale. Hanno intenzione di rendere il codice e i dati di Gecko liberamente disponibili per stimolare ulteriori progressi.