Un recente studio dell’Università di Stanford ha messo in dubbio le conclusioni di un progetto su larga scala che aveva testato le prestazioni dei principali modelli linguistici di grandi dimensioni. La ricerca ha dimostrato che l’apparente comparsa di nuove competenze da parte degli LLM non è dovuta al loro funzionamento interno, ma al modo in cui sono stati valutati.
Come sono stati testati gli LLM
Nel 2022, più di 400 ricercatori hanno lanciato il progetto BIG-Bench, che consisteva nel sottoporre gli LLM a 204 compiti diversi. I compiti erano progettati per misurare le capacità linguistiche e cognitive degli Large Language Models. I ricercatori hanno osservato che, nella maggior parte dei compiti, le prestazioni degli LLM aumentavano con le dimensioni del modello. Tuttavia, in alcuni compiti, hanno notato un salto di prestazioni dopo un certo punto.
Questo salto è stato interpretato come una “svolta”, cioè una transizione improvvisa da uno stato all’altro, simile a una transizione di fase in fisica. I ricercatori hanno anche sottolineato la natura imprevedibile di questa svolta, che sollevava problemi di sicurezza. Un’AI generativa imprevedibile potrebbe essere pericolosa.
Come sono state confutate le conclusioni di BIG-Bench
I ricercatori di Stanford hanno pubblicato un documento che contestava le conclusioni di BIG-Bench. Il documento sostiene che la svolta non è dovuta al funzionamento interno degli LLM, ma alla metrica di valutazione utilizzata. La metrica assegnava un punteggio binario, cioè zero o uno, a seconda che la risposta fosse corretta o sbagliata.
I ricercatori di Stanford hanno proposto una metrica alternativa, che assegnava un credito parziale, cioè un punteggio frazionario, a seconda della vicinanza alla risposta corretta. Usando questa metrica, hanno mostrato che il miglioramento delle prestazioni degli LLM era graduale e prevedibile.
Quali sono le implicazioni di questo studio
Questo studio ha importanti implicazioni per la ricerca sull’AI. Dimostra che il comportamento degli LLM non è imprevedibile, ma dipende dal metodo di valutazione. Suggerisce inoltre che gli LLM non acquisiscono nuove competenze inaspettatamente, ma solo in base ai dati di addestramento. Gli LLM si allenano analizzando grandi volumi di testo e stabilendo i collegamenti tra le parole. Più parametri hanno, più collegamenti possono trovare. GPT-2 ha 1,5 miliardi di parametri, mentre GPT-3.5 ne ha 350 miliardi. GPT-4, che gestisce Microsoft Copilot, utilizza 1,75 trilioni di parametri.
Questo studio incoraggia i ricercatori a sviluppare una scienza che preveda il comportamento degli LLM, in modo da poterli usare in modo sicuro ed efficace.