Google ha presentato DataGemma, due nuove versioni dei suoi modelli Gemma, basati su dati statistici reali provenienti da Data Commons di Google. Il gigante della ricerca afferma che DataGemma è il primo modello aperto in grado di affrontare e prevenire le cosiddette “allucinazioni” dell’AI.
DataGemma, i modelli AI di Google basati su dati reali
Le allucinazioni sono ancora un grosso problema per i modelli linguistici, soprattutto quando si tratta di dati numerici o statistici, dove la precisione è fondamentale. Data Commons di Google è un archivio di oltre 240 miliardi di dati raccolti da organizzazioni affidabili come le Nazioni Unite e i Centri per il controllo e la prevenzione delle malattie.
Sfruttando questo enorme set di dati statistici, DataGemma (che si basa su Gemini) è in grado di migliorare significativamente l’accuratezza del modello, basando i suoi risultati su informazioni reali e affidabili.
Il cuore dell’approccio di DataGemma è costituito da due tecniche chiave: Retrieval-Interleaved Generation (RIG) e Retrieval-Augmented Generation (RAG). Entrambi i metodi riducono le allucinazioni basando i modelli su dati reali durante il processo di generazione.
RIG opera interrogando proattivamente le fonti attendibili prima di generare una risposta. Quando viene richiesto, DataGemma identifica i punti di dati statistici all’interno della query e recupera informazioni precise da Data Commons. Ad esempio, alla domanda “L’uso delle energie rinnovabili è aumentato a livello globale?“, il modello inserisce nella risposta statistiche in tempo reale, garantendo l’accuratezza dei fatti.
RAG, invece, fa un ulteriore passo avanti recuperando le informazioni rilevanti da Data Commons prima di generare una risposta. Con la sua lunga finestra di contesto (abilitata da Gemini 1.5 Pro), DataGemma assicura risposte complete, inserendo tabelle e note a piè di pagina che forniscono un contesto più ampio e meno allucinazioni.
I progressi e i limiti dell’approccio DataGemma di Google
Sebbene la ricerca di Google su RIG e RAG sia ancora in fase iniziale, e i primi risultati siano promettenti, c’è ancora molta strada da fare.
Nelle valutazioni effettuate con l’approccio RIG, l’accuratezza dei fatti è migliorata notevolmente, passando da un valore di base del 5-17% a circa il 58%. Questo rappresenta un significativo passo avanti nella ricerca di risposte AI più affidabili. Tuttavia, i ricercatori hanno notato che in circa il 33-27% dei casi, sia il modello che i Data Commons hanno fornito informazioni errate. Ciò è stato attribuito a due fattori principali: problemi di precisione con l’interfaccia in linguaggio naturale di Data Commons e la generazione di domande non pertinenti da parte del modello.
L’approccio RAG ha mostrato risultati ancora più impressionanti in alcune aree. Quando si citano valori numerici specifici da Data Commons, il modello ha raggiunto un tasso di precisione sorprendente del 98-99%. Tuttavia, il team ha osservato che le prestazioni del modello calavano quando si trattava di trarre conclusioni basate su queste statistiche, con deduzioni sbagliate o non fondate che si verificavano nel 6-20% dei casi.
Per entrambi gli approcci, una sfida comune è stata copertura insufficiente dei dati. Spesso i modelli AI non sono stati in grado di fornire risposte perché mancavano le informazioni rilevanti in Data Commons. Ciò mette in luce la necessità di espandere e migliorare i set di dati su cui questi sistemi si basano.
Gli obiettivi futuri
Il team DataGemma ha delineato un piano di sviluppo futuro per migliorare il modello AI. I principali obiettivi sono:
- Ampliare il set di dati usato per addestrare l’AI, aumentando sia qualità che quantità delle informazioni fornite;
- Potenziare la capacità dell’AI di comprendere e gestire il linguaggio naturale umano;
- Sperimentare interfacce utente che mostrino i risultati dell’AI insieme a contenuti verificati.
Google inoltre, ha effettuato test di sicurezza per individuare possibili query rischiose.