Secondo uno studio pubblicato su JAMA Pediatrics, ChatGPT mostra gravissime lacune in campo pediatrico. Testando la versione GPT-4 del chatbot su casi clinici di bambini malati, la ricerca ha rilevato che l’accuratezza diagnostica è solo del 17%.
In pratica, quando si tratta di formulare diagnosi su pazienti in età pediatrica, ChatGPT sbaglia nell’83% dei casi. Una performance estremamente negativa che evidenzia come il chatbot di OpenAI abbia ancora moltissimi limiti nell’affrontare la complessità della medicina per l’infanzia.
Per testare le capacità diagnostiche di ChatGPT in pediatria, i ricercatori hanno utilizzato 100 casi clinici reali pubblicati tra il 2013 e il 2023 su riviste mediche specializzate. Si tratta di casi presentati come situazioni o quiz, nei quali vengono fornite le stesse informazioni a disposizione dei medici che visitarono quei pazienti pediatrici. L’obiettivo è formulare la diagnosi corretta sulla base dei dati clinici riportati. Il chatbot è stato quindi messo alla prova su questi stessi 100 casi, per valutarne la capacità diagnostica rispetto a medici esperti in pediatria.
ChatGPT fallisce test su 100 casi pediatrici
i ricercatori hanno estratto il testo rilevante da 100 casi clinici reali pubblicati tra il 2013 e il 2023 e lo hanno inserito come prompt, chiedendo quindi al chatbot di fornire una diagnosi. I risultati sono stati deludenti: ChatGPT ha fornito la diagnosi corretta solo in 17 casi su 100. In 72 casi ha chiaramente sbagliato la diagnosi, mentre negli 11 rimanenti ha dato risposte incomplete.
Secondo i ricercatori ciò è dovuto al fatto che, a differenza degli adulti, nei pazienti pediatrici l’età è un fattore chiave che ChatGPT non riesce a considerare adeguatamente. Di conseguenza, concludono che il chatbot non è affatto adatto ad affrontare casi clinici pediatrici, dato l’altissimo tasso di errori diagnostici.
ChatGPT insufficiente in pediatria, ma c’è margine di miglioramento
Lo studio evidenzia dunque che ChatGPT non può sostituire i pediatri nel breve periodo, dato l’altissimo tasso di errori diagnostici riscontrato. Tuttavia, gli autori sottolineano che l’analisi dei punti deboli può aiutare a migliorare il chatbot in futuro. In particolare, ChatGPT fatica a stabilire le relazioni note tra patologie, cosa che un medico esperto fa istintivamente.
Per rendere più affidabile ChatGPT, i ricercatori suggeriscono di addestrarlo esclusivamente su letteratura medica pediatrica autorevole, anziché su informazioni generiche da Internet che possono essere imprecise. Questo potrebbe aumentarne l’accuratezza diagnostica in un settore complesso come la pediatria.