L’intelligenza artificiale sta compiendo progressi fulminei in molti settori, al punto da superare persino le capacità umane in ambiti come la medicina. Eppure, quando si tratta di affrontare semplici problemi di logica, questi sistemi così sofisticati sembrano ancora fallire miseramente.
Il paradosso di Alice nel paese delle meraviglie
Uno studio condotto dall’organizzazione LAION ha messo alla prova numerosi modelli linguistici di punta, come GPT-3, GPT-4 e GPT-4o di OpenAI, Claude 3 Opus di Anthropic, Gemini di Google, Llama di Meta e Mixtral di Mistral. Il protocollo di test era apparentemente semplice: rispondere al cosiddetto problema di “Alice nel paese delle meraviglie”.
La domanda in questione era: “Alice ha [X] fratelli e anche [Y] sorelle. Quante sorelle ha il fratello di Alice?“. Nonostante la sua apparente semplicità, quasi tutti i modelli testati hanno fallito nel fornire una risposta corretta, dimostrando lacune inaspettate nella loro capacità di ragionamento logico.
Ciò che ha sorpreso maggiormente i ricercatori è stata non solo l’incapacità dei modelli di risolvere l’enigma, ma anche l’eccessiva fiducia dimostrata nelle loro risposte errate. Alcuni modelli AI, come Llama 3 di Meta, hanno fornito spiegazioni dettagliate ma assurde per giustificare le loro soluzioni palesemente sbagliate, rendendole apparentemente plausibili.
Servono nuovi test per valutare le capacità dell’AI
Questi risultati sono in netto contrasto con i buoni punteggi ottenuti dagli stessi modelli in test come l’MMLU (Multi-task Language Understanding), che valutano la capacità di un’intelligenza artificiale di risolvere problemi. Questo ha portato i ricercatori a sottolineare la necessità di rivedere le metriche utilizzate per misurare le effettive capacità dei sistemi di intelligenza artificiale.
Un monito sull’eccessiva fiducia nell’AI
Sebbene l’intelligenza artificiale stia compiendo passi da gigante in molti campi, questo studio serve come monito sull’importanza di non riporre una fiducia eccessiva nelle sue capacità attuali. Nonostante i progressi tecnologici, semplici problemi di logica possono ancora rappresentare un ostacolo per questi sistemi, evidenziando la necessità di ulteriori miglioramenti e di un approccio equilibrato nell’implementazione dell’AI.