Lo scorso marzo OpenAI ha svelato GPT-4, l’ultima evoluzione del modello di linguaggio che si trova alla base di ChatGPT. Il cosiddetto Generative Pre-trained Transformer è il cuore pulsante del chatbot IA, ma lo abbiamo scoperto soltanto tra fine 2022 e inizio 2023 grazie al suo boom internazionale. Per tale ragione, la domanda seguente è balzata nelle menti di poche persone veramente appassionate: cos’è cambiato da GPT-1 a GPT-4? Qual è stata l’evoluzione del modello di apprendimento automatico realizzato dalla organizzazione di Sam Altman?
Cosa sono i GPT?
Prima di tutto serve una rapida infarinatura – o un ripasso, per coloro che hanno già approfondito la questione – di cos’è un Generative Pre-trained Transformer o GPT. Si tratta di un modello utilizzato per attività di elaborazione del linguaggio naturale, addestrato su enormi quantità di dati (si parla di milioni o miliardi) ripresi da pagine Web, libri e altri documenti pubblici affinché l’intelligenza artificiale possa rispondere adottando un linguaggio contestualmente rilevante e semanticamente coerente.
In breve, GPT è un modello pre-addestrato per parlare con gli esseri umani e rispondere correttamente alle loro domande, occupandosi della traduzione di testi, di riassunti e di altre attività. Dopo quasi cinque anni siamo arrivati a GPT-4 e, dato il boom delle IA generative, entro fine 2023 potrebbe persino arrivare GPT-5.
Ricordiamo GPT-1
OpenAI ha dato vita a GPT-1, la prima storica iterazione, nel giugno 2018 addestrandolo tramite Common Crawl e BookCorpus, accedendo a 117 milioni di parametri. All’uscita sul mercato ha migliorato sensibilmente i precedenti modelli linguistici all’avanguardia: uno dei suoi punti di forza, difatti, consisteva nella possibilità di generare output adottando un linguaggio forbito o semplice a seconda delle richieste, ma sempre coerente e fluido. I due set di dati utilizzati hanno permesso all’IA di elaborare prompt semplici e complessi con alcune difficoltà, ma soddisfando gli utenti.
Nonostante la sua bontà, il modello generava prevalentemente testi ripetitivi e non riusciva a ragionare oltre due prompt consecutivi sul medesimo tema. Inoltre, i migliori risultati li offriva solamente con input brevi. Se non altro, ha gettato le basi per il lancio della versione successiva, considerevolmente più potente rispetto a GPT-1.
Il salto a GPT-2
Il Generative Pre-trained Transformer di seconda generazione conteneva addirittura 1,5 miliardi di parametri grazie all’addestramento su Common Crawl e WebText, set di dati molto più ampio e diversificato rispetto a quello fornito in pasto al predecessore. Grazie a questo esercizio, GPT-2 riusciva a generare sequenze di testo coerenti e realistiche, anche più lunghe rispetto a quelle prodotte da GPT-1.
La somiglianza alle risposte umane è apparsa per la prima volta, in maniera evidente, proprio con questa versione del modello firmato OpenAI. Per tale ragione, molti ricercatori hanno iniziato a usare lo strumento in questione per varie attività di elaborazione del linguaggio naturale, come la creazione e la traduzione di contenuti.
Ancora una volta, però, GPT-2 mostrava un limite non indifferente: non riusciva ad affrontare ragionamenti più complessi, comprendere a pieno i contesti dei prompt forniti dagli utenti e lavorare con testi più lunghi. L’eccellenza nei paragrafi brevi era evidente ma, oltre a una certa lunghezza, il modello non riusciva a restituire risultati soddisfacenti.
Il boom di GPT-3
Arriviamo dunque a GPT-3, introdotto nel giugno 2020 – a due anni dalla prima versione – e con un totale di 175 miliardi di parametri. In altri termini, GPT-3 è oltre 100 volte più grande di GPT-1 e oltre dieci volte rispetto al predecessore GPT-2!
L’addestramento, anche in questo frangente, è avvenuto mediante i database di BookCorpus e Common Crawl, ai quali va però aggiunto Wikipedia tra le fonti. Così facendo, OpenAI ha fornito al modello di linguaggio una mole di parole e di informazioni mai vista prima, portando a miglioramenti significativi per l’intelligenza artificiale.
Ad esempio, come abbiamo potuto provare tutti quanti grazie a ChatGPT, GPT-3 è in grado di scrivere stringhe di codice in vari linguaggi di programmazione; creare script teatrali; dare vita a opere d’arte e molto altro ancora. La capacità di comprendere il contesto di un determinato prompt e generare risposte appropriate ha stupito tutti sin dai primi test con ChatGPT, chatbot conversazionale passato dall’essere sconosciuto all’essere il fenomeno del momento non solo nell’industria tech e tra gli appassionati di IA. Anzi, ha reso quest’ultima mainstream.
GPT-3 non è comunque esente da difetti: può restituire risposte distorte, imprecise o inappropriate, a volte completamente irrilevanti. In altri termini, il modello fatica ancora a comprendere i contesti di certe conversazioni. Ciononostante, questo modello è già fonte di preoccupazioni circa le implicazioni etiche e il potenziale uso improprio per generare notizie false, malware, campagne di phishing, truffe e non solo.
Il futuro con GPT-4
Arriviamo dunque a GPT-4, l’ultimo modello della serie lanciato il 14 marzo 2023. Come nelle occasioni precedenti, si tratta di un significativo passo avanti rispetto al predecessore, di cui non si sanno i dettagli in merito i dati di addestramento e l’architettura del modello, ma di cui conosciamo alcune funzionalità.
Ad esempio, la caratteristica distintiva di GPT-4 è la sua natura multimodale, ovvero in grado di accettare immagini come input trattandole come prompt testuali. O ancora, dai primi test tramite ChatGPT Plus risulta lampante la sua immediata comprensione di prompt complessi e capacità di offrire prestazioni quasi umane su benchmark professionali.
Insomma, GPT-4 vuole spingere ulteriormente i confini degli strumenti IA, ma OpenAI si fermerà a questo punto? Considerato l’interesse per il settore, un eventuale punto di arresto sembra davvero distante.