Un nuovo studio condotto dall’unità di ricerca DeepMind di Google ha rivelato che un sistema di intelligenza artificiale può superare i fact-checker umani nella valutazione dell’accuratezza delle informazioni generate dai modelli linguistici di grandi dimensioni.
L’articolo, intitolato “Long-form factuality in large language models” e pubblicato sul server di pre-print arXiv, presenta un metodo chiamato Search-Augmented Factuality Evaluator (SAFE). Questo sistema utilizza un LLM per scomporre il testo generato in singoli fatti e poi sfrutta i risultati di Google Search per determinare l’accuratezza di ogni affermazione.
SAFE Vs analisti umani
I ricercatori hanno confrontato le prestazioni di SAFE con quelle degli analisti umani su un set di dati di circa 16.000 fatti. I risultati hanno mostrato che le valutazioni di SAFE corrispondevano alle valutazioni umane nel 72% dei casi. Inoltre, in un campione di 100 discordanze tra SAFE e gli analisti umani, il giudizio di SAFE è risultato corretto nel 76% dei casi. Sebbene il documento affermi che “gli agenti LLM possono raggiungere prestazioni di valutazione sovrumane“.
Gary Marcus, noto ricercatore nel campo dell’intelligenza artificiale e frequente critico di affermazioni esagerate, ha suggerito che in questo caso “sovrumano” potrebbe semplicemente significare “migliore di un lavoratore della folla sottopagato, piuttosto che di un vero analista umano“. Per dimostrare reali prestazioni sovrumane, SAFE dovrebbe essere confrontato con esperti analisti umani, non solo con lavoratori in crowdsourcing. I dettagli specifici degli analisti umani, come le loro qualifiche, il compenso e il processo di fact-checking, sono fondamentali per contestualizzare correttamente i risultati.
Vantaggi e applicazioni di SAFE
Un chiaro vantaggio di SAFE è il costo: i ricercatori hanno scoperto che l’utilizzo del sistema di intelligenza artificiale era circa 20 volte più economico rispetto ai fact-checker umani. Con il crescente volume di informazioni generate dai modelli linguistici, sarà sempre più importante disporre di un metodo economico e scalabile per verificare le affermazioni.
Il team di DeepMind ha utilizzato SAFE per valutare l’accuratezza fattuale di 13 modelli linguistici di punta su un nuovo benchmark chiamato LongFact. I risultati indicano che i modelli più grandi hanno generalmente prodotto meno errori fattuali, ma anche i modelli più performanti hanno generato un numero significativo di affermazioni false. Ciò sottolinea il rischio di affidarsi eccessivamente a modelli linguistici che possono esprimere in modo fluente informazioni inesatte.
Importanza della trasparenza e del coinvolgimento di esperti umani
Mentre il codice di SAFE e il set di dati di LongFact sono stati resi disponibili su GitHub, consentendo ad altri ricercatori di esaminare e sviluppare il lavoro, è necessaria una maggiore trasparenza per quanto riguarda le basi umane utilizzate nello studio. Comprendere le specifiche del background e del processo dei crowdworker è essenziale per valutare le capacità di SAFE nel giusto contesto.
Con la corsa dei giganti tecnologici allo sviluppo di modelli linguistici sempre più potenti, la capacità di verificare automaticamente i risultati di questi sistemi potrebbe rivelarsi fondamentale. Tuttavia, è cruciale che lo sviluppo di tecnologie così importanti avvenga alla luce del sole, con il contributo di un’ampia gamma di soggetti interessati al di là delle mura di una singola azienda.
Un benchmarking rigoroso e trasparente con esperti umani sarà essenziale per misurare i veri progressi e valutare l’impatto reale del fact-checking automatizzato sulla lotta alla disinformazione.