I programmi di intelligenza artificiale generativa, come ChatGPT, hanno un problema di obsolescenza delle informazioni. ChatGPT, per esempio, fino a poco tempo fa era basato su dati antecedenti a settembre 2021, prima che OpenAI lanciasse la nuova versione GPT-4, in grado di accedere ai dati fino ad aprile 2023.
Per rendere questi programmi più aggiornati e affidabili, gli esperti di AI stanno cercando di fornire loro un accesso costante a dati in continua evoluzione.
In questo senso, un interessante progetto congiunto tra Google e OpenAI è stato presentato questo mese. Si tratta di “FreshLLM”, un sistema che permette a GPT-4 di utilizzare le informazioni provenienti dalle ricerche su Google. Il cuore pulsante di FreshLLM è un nuovo metodo di addestramento del modello linguistico, chiamato “FreshPrompt”, che sfrutta i risultati dei motori di ricerca.
Il funzionamento di FreshPrompt
Il metodo consiste nell’inserire i principali risultati di ricerca di Google nel prompt di input di GPT-4 e poi mostrare una risposta corretta a una domanda basata su quei risultati di ricerca. In questo modo, iGPT-4 è stimolato a usare le prove di ricerca sul web per costruire la sua risposta.
“FreshPrompt migliora significativamente le prestazioni [dei programmi di IA generativa] rispetto agli approcci concorrenti che utilizzano i motori di ricerca”, affermano Tu Vu e il suo team di Google.
Ma FreshPrompt non è tutto. Per valutare le capacità di GPT-4 e dei suoi concorrenti nell’utilizzare i dati trovati su Internet, Tu Vu e il suo team hanno dovuto creare una lista di domande contenenti fatti e notizie.
Per fare questo, il team, con l’aiuto di collaboratori esterni, ha formulato domande su “come sta cambiando il mondo”. Le domande sono state scelte in primo luogo per richiedere conoscenze “fresche”, cioè “conoscenze che sono cambiate di recente o su nuovi eventi”. Dovevano inoltre essere “plausibili”: doveva essere “plausibile che una persona reale digitasse questa domanda nel suo motore di ricerca”.
600 domande per mettere alla prova l’intelligenza artificiale
Queste 600 domande, raggruppate sotto il nome di “FreshQA”, spaziano da “Il romanzo di Virginia Woolf sulla famiglia Ramsay è diventato di dominio pubblico negli Stati Uniti?”, che richiede una risposta fissa, a “Qual è stato l’ultimo film di Brad Pitt come attore? La maggior parte delle risposte, ma non tutte, provengono da Wikipedia.
Il codice GitHub del progetto contiene un documento di Google Spreadsheets con tutte le domande di FreshQA. Per rendersi conto della vasta gamma di argomenti trattati, si possono consultare le domande. Ad esempio, si passa da “Quale autore ha venduto più romanzi negli Stati Uniti l’anno scorso secondo Publishers Weekly?” (la risposta è Colleen Hoover) a “Quanti account hanno superato i 100 milioni di follower su Instagram?” (38).
Per mettere alla prova le AI, ci sono anche domande ingannevoli che presentano falsità. Per esempio: “In quale anno il primo essere umano è atterrato su Marte?
I risultati ottenuti
I modelli linguistici di grandi dimensioni (LLM) testati, tra cui GPT-4 e Pathways Language Model (PaLM), il Large Language Model di Google, sono stati prevedibilmente messi alla prova dalle domande di FreshQA. Ma con l’ausilio di FreshPrompt, i risultati sono stati nettamente migliori. Tu Vu e il suo team sottolineano che ciò è dovuto principalmente al fatto che gli LLM non aggiornano le loro informazioni, producendo risposte a volte datate. Inoltre, molti di loro si astengono dal dare una risposta.
In GPT-4, l’aggiunta del FreshPrompt, sostiene il team, “migliora significativamente l’accuratezza delle risposte alle domande FreshQA”, in particolare perché questa tecnica “riduce notevolmente le allucinazioni e le risposte obsolete”. Nelle domande relative a eventi successivi al 2022, la differenza di risultati è enorme: il tasso di accuratezza passa dall’8% al 70,2%. Per tutte le domande FreshQA, che includono fatti più vecchi, la differenza rimane significativa, passando dal 28,6% al 75,6%.
Anche per le domande ingannevoli, che includono falsità, la differenza è notevole: il tasso di accuratezza passa dal 33,9% di risposte corrette al 71%. Certo, questo significa che ci sono ancora errori in quasi un terzo dei casi.
FreshPrompt batte la concorrenza
Il team di Tu Vu ha confrontato FreshPrompt con altre tecniche che usano le query del motore di ricerca per “potenziare” i modelli linguistici. Tra queste, c’è Perplexity.ai, una combinazione di GPT-3.5 e Bing Search. Tuttavia, Perplexity si è dimostrato poco efficace: su tutte le domande di FreshQA, ha raggiunto solo il 52,2% di accuratezza. GPT-4, invece, con FreshPrompt, ha ottenuto il 75,6% di accuratezza.
Il team ha individuato anche alcuni fattori che influenzano i risultati. Uno di questi è il numero di elementi di prova che FreshPrompt recupera dalla ricerca su Internet. Più elementi ci sono, più è probabile che la risposta sia corretta. Il team afferma che il numero di elementi di prova per ogni domanda è l’aspetto più importante per raggiungere la massima precisione.
Le sfide future
Il team di Tu Vu riconosce che ci sono ancora delle sfide da affrontare. Una di queste è l’aggiornamento costante di FreshPrompt, che richiede di verificare che le risposte siano ancora rilevanti, e questo richiede molto tempo. Il team spera che la comunità open source possa contribuire o che l’aggiornamento possa essere automatizzato dall’intelligenza artificiale generativa. Nel frattempo, si impegna a mantenere FreshQA aggiornato.