I modelli di AI generativa stanno trovando sempre più spazio nelle strutture sanitarie, ma la loro adozione è forse prematura e senza dubbio controversa. Alcuni sostengono che possano aumentare l’efficienza e portare a intuizioni preziose, mentre altri temono difetti e pregiudizi che potrebbero peggiorare i risultati sanitari. Ma come valutare quantitativamente l’utilità o il danno che questi modelli possono causare nella gestione delle cartelle cliniche o nella risposta a domande sulla salute?
Hugging Face propone come soluzione il test di benchmark Open Medical-LLM, sviluppato in collaborazione con l’associazione no-profit Open Life Science AI e il Natural Language Processing Group dell’Università di Edimburgo. Questo benchmark mira a standardizzare la valutazione delle prestazioni dei modelli generativi di AI su una serie di compiti legati alla medicina.
Cos’è Open Medical-LLM
Open Medical-LLM in realtà non è un benchmark ex novo, ma un insieme di set di test esistenti, come MedQA, PubMedQA e MedMCQA, progettati per valutare le conoscenze mediche generali e i campi correlati. Il benchmark include domande a scelta multipla e aperte che richiedono ragionamento e comprensione in campo medico, basate su materiale come esami di abilitazione alla professione medica negli Stati Uniti e in India e banche di domande per test universitari di biologia.
Hugging Face presenta Open Medical-LLM come un solido strumento di valutazione per i modelli di AI generativa in ambito sanitario. Tuttavia, alcuni esperti medici sui social mettono in guardia dal considerarlo una panacea, sottolineando che i risultati del benchmark non dovrebbero essere l’unico criterio per decidere se implementare o meno questi sistemi in contesti clinici reali.
È importante un approccio cauto e consapevole, evitando di affidarsi ciecamente ai punteggi di Open Medical-LLM per introdurre frettolosamente l’intelligenza artificiale in campo medico.
I limiti del benchmark di Hugging Face
Il divario tra l’ambiente artificioso delle risposte alle domande mediche e la pratica clinica reale può essere ampio, come sottolineato dal medico Liam McCoy. Anche la ricercatrice di Hugging Face Clémentine Fourrier concorda sul fatto che le classifiche del benchmark dovrebbero essere utilizzate solo come prima approssimazione e che è necessario un test più approfondito per esaminare i limiti e la rilevanza del modello in condizioni reali.
Come ha sottolineato Fourrier su X. “I modelli AI in ambito sanitario non dovrebbero assolutamente essere utilizzati da soli dai pazienti, ma dovrebbero invece essere addestrati per diventare strumenti di supporto per i medici“.
Questo non significa che Open Medical-LLM non serva a nulla,. Può essere uno strumento utile per valutare i modelli di AI generativa in ambito sanitario, ma non può sostituire un’attenta analisi del mondo reale.