Con il rilascio di GPT-4o, OpenAI ha alzato ancora una volta l’asticella. La nuova versione del chatbot, infatti, può gestire input multimodali, ovvero non solo testo ma anche audio, immagini e video.
Mentre le versioni precedenti come GPT-4 usavano modelli separati per elaborare i diversi tipi di contenuto, GPT-4o ha un’architettura unica che gli permette di comprendere e generare risultati a partire da input che combinano testo, audio, immagini e video. La “o” in GPT-4o sta appunto per “omni”, in riferimento alla sua capacità di gestire contenuti multimodali.
GPT-4o e la voce Sky
Quando è stato presentato GPT-4o, una delle caratteristiche che ha attirato maggiormente l’attenzione è stata la sua capacità di sostenere conversazioni vocali in modo estremamente naturale e umano. Il nuovo modello di OpenAI è finito sotto i riflettori anche per la voce “Sky”, poi liquidata in tutta fretta perché il tono e il timbro risultavano fin troppo simili a quelli dell’attrice Scarlett Johansson nel film “Her”.
Scarlett Johansson ha poi dichiarato di essere stata a lungo “corteggiata” da Sam Altman che le avrebbe offerto di diventare la voce dell’attuale modello. Nonostante il rifiuto dell’attrice però, OpenAI ha creato una voce molto simile alla sua, al punto che persino gli amici più stretti e i fan non riuscivano a distinguerla.
Ciò ha sollevato una forte controversia sull’appropriazione non autorizzata della voce di una celebrità. A seguito delle polemiche, OpenAI ha deciso (forse a malincuore, vista l’ammirazione di Altman per Scarlett Johansson) di disattivare rapidamente la discussa voce Sky, operazione che è suonata un po’ come un’ammissione di colpa.
6 funzionalità di GPT-4o da scoprire
In realtà, al di là di questo incidente di percorso legato alla voce Sky, GPT-4o include molte altre funzionalità degne di nota, che vanno ben oltre le tradizionali interazioni basate sul testo.
1. Generazione accurata di testo nelle immagini
Rispetto alle versioni precedenti, GPT-4o ha fatto notevoli passi avanti nella capacità di generare e integrare testo all’interno di immagini in modo coerente e accurato. I modelli precedenti, infatti, avevano spesso difficoltà a inserire correttamente il testo nelle immagini, ma l’ultimo modello di OpenAI è in grado di farlo con un livello di precisione molto elevato.
Ad esempio, riesce a mantenere la coerenza del testo generato per uno stesso personaggio visto da diverse angolazioni all’interno della stessa immagine. Inoltre, GPT-4o può produrre rendering 3D di oggetti con testo perfettamente integrato, dimostrando capacità avanzate di generazione di contenuti visivi. Può anche creare e adattare vari font in modo coerente con lo stile dell’immagine.
2. Rielaborazione dei contenuti video
Sebbene l’attenzione del pubblico si sia focalizzata principalmente sulla capacità di GPT-4o di interagire tramite il testo, in realtà questo modello eccelle anche nell’elaborazione dei video. Si tratta di una funzionalità molto potente che OpenAI non ha evidenziato in modo specifico durante la presentazione.
In particolare, GPT- 4o permette agli utenti di caricare video e richiedere riassunti e sintesi. Può produrre trascrizioni complete dei dialoghi ma anche fornire brevi riepiloghi dei concetti chiave espressi nel video.
3. Supporto educativo
In una collaborazione con Khan Academy, piattaforma online di apprendimento molto nota, OpenAI ha mostrato le grandi potenzialità di GPT-4o come strumento educativo innovativo. Condividendo il proprio schermo con il chatbot, gli studenti possono ricevere un tutoraggio personalizzato in varie materie, che vanno dalla matematica alle scienze naturali.
Grazie alle sue capacità di elaborazione del linguaggio naturale e di visione multimodale, GPT-4o è in grado di fornire spiegazioni dettagliate, risolvere esercizi passo passo, correggere gli errori e adattare il tutoring al livello di comprensione dello studente, proprio come farebbe un insegnante umano.
In pratica ChatGPT 4o può fungere da tutor virtuale, capace non solo di rispondere a domande specifiche ma anche di simulare una vera e propria lezione interattiva, mantenendo lo studente coinvolto e motivato. Si tratta di una dimostrazione concreta di come l’intelligenza artificiale possa essere utilizzata per potenziare e personalizzare l’apprendimento, rendendolo più efficace e inclusivo.
4. Assistente per le riunioni di lavoro
Oltre alle applicazioni educative, OpenAI ha anche dimostrato come GPT-4o possa essere un prezioso assistente durante riunioni di lavoro e call di gruppo. Condividendo il proprio schermo con il chatbot, i partecipanti possono interagire in tempo reale con il modello di intelligenza artificiale, facendogli domande, chiedendo chiarimenti o input rilevanti per la discussione.
GPT-4o è in grado di comprendere il contesto della conversazione, fornire risposte puntuali, fare collegamenti con quanto detto in precedenza ed elaborare nuove idee. Può persino riassumere periodicamente i punti chiave emersi, garantendo che tutti siano allineati. In questo modo, può aumentare la produttività e rendere più efficaci le interazioni di gruppo in ambito lavorativo.
5. Ampio supporto linguistico
Oltre alla sua abilità in lingua inglese, GPT-4o, vanta migliori prestazioni anche nell’elaborazione di diverse lingue meno note. Questo è stato reso possibile grazie a una migliore tokenizzazione, ovvero la capacità di suddividere il testo in unità semantiche chiave. In questo modo riesce a comprendere più efficacemente la struttura e le sfumature di lingue complesse.
Ciò ha implicazioni significative in termini di accessibilità globale. Rispetto alle versioni precedenti, GPT-4o è in grado di servire un bacino di utenti molto più ampio, fornendo assistenza e informazioni nella loro lingua nativa.
6. “Spacca” i benchmark
Nonostante OpenAI abbia deciso di porre l’accento sugli aspetti qualitativi e sull’esperienza utente piuttosto che sui risultati nei benchmark, le eccezionali prestazioni di GPT-4o emergono chiaramente dai test. Il modello, infatti, ha ottenuto punteggi molto elevati in diversi benchmark di riferimento per valutare le capacità dei modelli di linguaggio, superando sia i sistemi proprietari sviluppati da aziende come Google e Microsoft, sia modelli open source di alto livello.
In alcuni test specifici, ha perfino eguagliato o superato le prestazioni umane. I punteggi ottenuti nei benchmark dimostrano le eccezionali capacità di GPT-4o nell’elaborazione del linguaggio, ragionamento astratto, risoluzione di problemi e comprensione del mondo reale.
Accesso gratuito a GPT-4o
La ciliegina sulla torta è è l’accesso gratuito a tutti gli utenti alle funzioni che erano prima erano appannaggio esclusivo dell’abbonamento a pagamento. Inoltre, alcuni strumenti precedentemente limitati agli abbonati Plus, sono ora disponibili gratuitamente, come i GPT personalizzati.
In precedenza i GPT personalizzati erano accessibili solo a pagamento. Ora anche gli utenti gratuiti possono utilizzare quelli esistenti, ad esempio per consigli su ricette o acquisti. Però solo gli abbonati possono addestrare nuovi modelli personalizzati per le proprie esigenze specifiche.