OpenAI GPT-5: pochi dati per il training

OpenAI GPT-5: pochi dati per il training

OpenAI ha iniziato di usare dati scritti da zero e dati sintetici (generati da altre AI) per l'addestramento del modello GPT-5 (nome in codice Orion).
OpenAI GPT-5: pochi dati per il training
OpenAI ha iniziato di usare dati scritti da zero e dati sintetici (generati da altre AI) per l'addestramento del modello GPT-5 (nome in codice Orion).

Il nuovo modello di intelligenza artificiale generativa doveva essere lanciato entro metà 2024. Il CEO Sam Altman ha smentito le indiscrezioni su Orion (nome in codice di GPT-5), ma secondo le fonti del Wall Street Journal il ritardo è dovuto ad una serie di problemi, tra cui la mancanza di dati per l’addestramento (training). OpenAI ha dovuto trovare soluzioni alternative.

Dati sintetici e creati da zero

Per l’addestramento di modelli AI sempre più grandi occorre un’enorme quantità di dati, oltre a server più potenti per ridurre la durata del training. Questa è la strada da seguire per incrementare le prestazioni (ma ci sono alcune eccezioni). Come ha sottolineato Ilya Sutskever, i dati sono una risorsa limitata. In pratica servono più dati di quelli attualmente disponibili su Internet.

GPT-4 ha l’intelligenza di uno studente di scuola superiore, mentre GPT-5 dovrebbe ottenere un dottorato di ricerca in alcuni compiti. OpenAI non ha ancora raggiunto i risultati sperati, nonostante l’incremento dei costi. Altman ha dichiarato che l’addestramento di GPT-4 è costato oltre 100 milioni di dollari. Per GPT-5 si potrebbe arrivare al miliardo di dollari.

L’azienda californiana ha quindi adottato due soluzioni per cercare di sopperire alla mancanza di dati. La prima è creare dati da zero. Sono stati assunti ingegneri del software e matematici per scrivere codice e risolvere problemi da “dare in pasto” a GPT-5. I risultati e le procedure per ottenerli sono stati aggiunti al dataset di addestramento. Il processo è tuttavia lento.

La seconda opzione permette di velocizzare il training. OpenAI utilizza anche dati sintetici, ovvero generati da altre intelligenze artificiali. Questo metodo comporta però effetti collaterali imprevisti perché le risposte sbagliate (allucinazioni) vengono trasferite al nuovo modello. Per ridurli sono utilizzati i dati generati dai modelli o1 che “ragionano” prima di fornire una risposta. L’azienda californiana non ha comunicato quando GPT-5 sarà pronto per il debutto ufficiale.

Fonte: WSJ
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
24 dic 2024
Link copiato negli appunti