Un recente studio condotto da un team di ricercatori della Georgia State University ha messo a confronto le capacità di giudizio morale di ChatGPT, uno dei più avanzati sistemi di intelligenza artificiale, con quelle di un gruppo di studenti universitari.
I risultati della ricerca, pubblicata su Scientific Report, hanno rivelato che, in molti casi, il chatbot AI di OpenAI è stato in grado di fornire risposte migliori in termini di intelligenza, correttezza, affidabilità e virtù generale.
Metodologia dello studio
Per giungere a queste conclusioni, i ricercatori hanno raccolto le risposte scritte di 68 studenti di un corso introduttivo di filosofia, ai quali è stato chiesto di valutare 10 scenari di dilemmi morali. Questi spaziavano da situazioni chiaramente contrarie all’etica, come una rapina a mano armata, a trasgressioni sociali più ambigue. Le risposte umane con il punteggio più alto sono state poi combinate con l’analisi di ChatGPT per ciascuna situazione.
Successivamente, i ricercatori hanno incaricato un campione eterogeneo di 299 adulti di confrontare in doppio cieco le risposte umane e dell’AI, valutandole su 10 diverse dimensioni, tra cui moralità, equità, compassione e razionalità.
ChatGPT sembra più “virtuoso” degli umani nelle scelte etiche
I risultati dello studio hanno mostrato che, per quanto riguarda virtù generale, intelligenza e affidabilità, le risposte di ChatGPT hanno ottenuto punteggi costantemente più alti rispetto a quelle degli studenti umani. I valutatori, infatti, si sono trovati più spesso d’accordo con i giudizi morali dell’AI, ritenendo le sue argomentazioni più giuste e razionali.
Solo dopo aver espresso le loro valutazioni, i partecipanti sono stati informati che una serie di risposte proveniva da ChatGPT. La maggioranza dei valutatori è stata in grado di distinguere correttamente tra risposte umane e dell’AI, ben oltre i livelli di probabilità casuale, a seconda dello scenario proposto.
L’AI ha una vera comprensione morale?
I ricercatori sottolineano come le avanzate capacità di comprensione e generazione linguistica di ChatGPT gli consentano di articolare argomentazioni più coerenti e meglio strutturate rispetto agli studenti che stanno ancora sviluppando queste competenze.
Tuttavia, evidenziano anche alcune implicazioni preoccupanti: la raffinatezza e l’espressione convincente delle posizioni morali di un’AI potrebbe portare gli esseri umani ad accettare acriticamente i suoi giudizi, per quanto fallaci, semplicemente perché in superficie sembrano ragionevoli.
Resta inoltre da verificare se modelli linguistici di grandi dimensioni come ChatGPT comprendano davvero i concetti morali e il ragionamento etico allo stesso modo degli esseri umani, o se i loro risultati siano solo una forma avanzata di “moral muddling“, che produce giudizi plausibili ma potenzialmente inaccurati senza una vera comprensione morale.
I limiti dello studio
Nonostante l’apparente superiorità dell’AI sulla carta, i ricercatori riconoscono la portata limitata dello studio, che consisteva nel confrontare ChatGPT con una coorte relativamente inesperta. La replica dei test con studenti più avanzati o con professionisti potrebbe potenzialmente invertire o diminuire l’apparente vantaggio dell’AI.
Tuttavia, questo studio rappresenta un primo passo importante nell’esplorazione delle capacità di ragionamento etico degli LLM. Man mano che i sistemi di intelligenza artificiale diventano sempre più sofisticati, sarà sempre più importante una valutazione rigorosa del loro giudizio morale nel mondo reale.