In base a un nuovo studio che è stato pubblicato dal team di ricerca di Apple, i modelli di intelligenza artificiale di grandi dimensioni mostrano notevoli debolezze nel ragionamento logico. Lo studio passa al vaglio la capacità di diversi modelli di linguaggio, compresi quelli sviluppati da OpenAI e Meta, di affrontare compiti di ragionamento matematico. Ciò che si evince è che anche piccole variazioni nella formulazione delle domande possono influenzare le risposte.
Apple: lo studio sui limiti dell’AI
Apple pone l’accento sul fatto che i modelli di intelligenza artificiale tendono a basarsi su un riconoscimento di pattern invece che su un ragionamento logico vero e proprio. Ciò costituisce un fattore potenzialmente dannoso, considerando che modifiche irrilevanti nel contesto o nell’informazione possono condurre a risposte nettamente diverse.
Un esempio citato nello studio riguarda un semplice problema di matematica che chiede quanti kiwi una persona ha raccolto in diversi giorni. Quando sono stati introdotti dettagli irrilevanti sulle dimensioni di alcuni kiwi, modelli hanno erroneamente corretto il totale finale, nonostante le informazioni extra non avessero alcun influenza sulla soluzione.
Questa fragilità nel ragionamento ha portato quindi i ricercatori a concludere che “semplicemente cambiare i nomi può alterare i risultati”, un segno potenzialmente preoccupante per il futuro delle applicazioni di intelligenza artificiale che richiedono un ragionamento coerente e accurato in contesti del mondo reale.
Secondo lo studio, tutti i modelli testati, dalle versioni open source più piccole come Llama ai modelli proprietari come GPT-4o di OpenAI, hanno mostrato un significativo degrado delle prestazioni di fronte a variazioni apparentemente irrilevanti nei dati di input. Apple suggerisce che l’IA potrebbe aver bisogno di combinare reti neurali con un ragionamento tradizionale basato su simboli per ottenere capacità decisionali e di risoluzione dei problemi maggiormente accurate.