Con il rilascio di GPT-4o, la startup guidata da Sam Altman ha alzato ulteriormente l’asticella. L’ultimo modello di OpenAI, il più avanzato finora, è in grado di parlare, ovvero di generare risposte vocali che simulano una conversazione naturale tra esseri umani. E l’effetto – a detta di chi ha avuto modo di sperimentarlo – è iper-realistico.
La modalità vocale avanzata ha fagocitato così tanto l’attenzione, che le altre abilità di GPT-4o sono passate in secondo piano, per quanto fossero altrettanto interessanti e sorprendenti.
Cosa cambia tra ChatGPT 4 e 4o?
GPT-4o è un un passo avanti rispetto ai precedenti modelli GPT di OpenAI. È, infatti, il primo davvero multimodale, in grado di ragionare in tempo reale attraverso il testo, la voce e le immagini. La scelta del nome, del resto, non è casuale. La “o” sta per “omni”.
Recentemente, ma solo per un piccolo gruppo di abbonati Plus, è stata rilasciata la modalità vocale avanzata, che offre conversazioni in tempo reale molto più naturali, e con una minore latenza. Inoltre, GPT-4o può cogliere le sfumature emotive nella voce dell’interlocutore. È in grado, infatti, di percepire stati d’animo come tristezza o eccitazione, e di riconoscere se l’utente sta cantando anziché parlare.
Il rilascio della nuova modalità vocale sarà graduale. Per prevenire possibili controversie e problemi legali, OpenAI ha applicato alcune limitazioni alla modalità vocale di GPT-4o:
- Le voci generate sono solo 4 (Juniper, Breeze, Cove ed Ember) create in collaborazione con doppiatori professionisti retribuiti. In questo modo si evitano problematiche relative ai deepfake, ossia contenuti audio generati artificialmente che imitano voci reali senza permesso.
- Sono stati aggiunti filtri per bloccare le richieste di generare musica o altri contenuti audio protetti da copyright. In questo modo OpenAI vuole prevenire violazioni di copyright che potrebbero causare conseguenze legali, come successo ad altre aziende di AI.
Come accedere a ChatGPT 4o?
Sia gli utenti gratuiti che gli abbonati a ChatGPT Plus possono usare GPT-4o. Gli utenti gratuiti hanno però delle limitazioni: possono inviare solo un numero limitato di messaggi a GPT-4o, dopodiché il chatbot passerà automaticamente alla versione precedente GPT-3.5.
Gli abbonati Plus invece hanno una soglia di utilizzo più alta (5 volte superiore agli utenti gratuiti), quindi possono interagire più a lungo con GPT-4o prima del downgrade a GPT-3.5. Inoltre, solo gli abbonati Plus possono creare e condividere nuovi modelli GPT personalizzati nello Store di OpenAI. Gli utenti gratuiti possono solo utilizzare i modelli condivisi da altri.
Infine, gli abbonati Plus mantengono l’accesso esclusivo al modello di immagini DALL-E 3 e l’accesso anticipato ad altre funzionalità avanzate di OpenAI.
6 funzioni nascoste di GPT-4o
GPT-4o si distingue per una serie di caratteristiche innovative, che spaziano dalla generazione di immagini all’elaborazione video, dal supporto educativo alle applicazioni nel mondo del lavoro.
1. Testo e immagini: un connubio perfetto
Una delle capacità più interessanti di GPT-4o è la sua capacità di generare accuratamente il testo nelle immagini. A differenza dei modelli precedenti, che spesso avevano difficoltà in questo compito, GPT-40 integra perfettamente il testo nelle immagini, dimostrando un livello di coerenza impressionante. In particolare, è in grado di generare testo, mantenere la coerenza tra le diverse angolazioni dello stesso personaggio e persino produrre rendering 3D di oggetti, il tutto con una notevole precisione. Inoltre, è in grado di generare font, dimostrando la sua versatilità nella creazione di contenuti visivi.
2. Oltre il testo: l’elaborazione video
Sebbene gran parte dell’attenzione si sia concentrata sulle interazioni basate sul testo, GPT-4o si distingue anche per le sue capacità di elaborazione video. Gli utenti possono caricare filmati e richiedere riassunti dettagliati o trascrizioni accurate di quello che viene detto nel video, grazie alle avanzate funzionalità del modello. Questa caratteristica rende GPT-4o un serio concorrente per le tecnologie esistenti di video processing.
3. Un tutor virtuale per tutti
La collaborazione tra OpenAI e Khan Academy per integrare GPT-4o nella piattaforma di e-learning ha dimostrato concretamente le enormi potenzialità del modello di linguaggio come strumento educativo e di tutoraggio personalizzato per gli studenti.
Grazie alla funzionalità di condivisione dello schermo, ChatGPT può vedere in tempo reale gli esercizi e i problemi su cui l’utente è bloccato, fornendo spiegazioni dettagliate, suggerimenti mirati e soluzioni step by step per aiutarlo a progredire. Le avanzate capacità di elaborazione multimodale di testi, formule matematiche, grafici e immagini, permettono a ChatGPT di supportare gli studenti in un’ampia varietà di materie, dalla matematica alle scienze.
Questa integrazione trasforma di fatto il chatbot in un tutor virtuale sempre disponibile, in grado non solo di rispondere a domande specifiche, ma anche di fornire una guida personalizzata e reattiva seguendo il progresso dell’utente, proprio come farebbe un docente in carne e ossa. Il risultato è un potente strumento di apprendimento individuale che può accelerare e ottimizzare il percorso formativo di ogni studente.
Did you hear? @OpenAI's newest model can reason across audio, vision, and text in real time.
How does GPT-4o do with math tutoring?🤔@salkhanacademy and his son test it on a Khan Academy math problem.
You can get AI-powered math tutoring right now with Khanmigo:… pic.twitter.com/8NXoh0SwtU
— Khan Academy (@khanacademy) May 13, 2024
4. Un alleato prezioso nelle riunioni
GPT-4o si è dimostrato un valido compagno anche durante le riunioni di lavoro. Condividendo lo schermo, i partecipanti possono interagire con il modello, che è in grado di fornire input, rispondere alle domande e persino riassumere le discussioni. Questa applicazione innovativa dell’intelligenza artificiale può contribuire a migliorare la collaborazione e la produttività in ambito professionale.
5. Verso una comunicazione globale
Oltre alla sua eccellente padronanza della lingua inglese, GPT-4o vanta prestazioni migliorate in numerose lingue regionali. Grazie a una tokenizzazione più efficiente, il modello è in grado di elaborare con maggiore precisione lingue come il gujarati, l’hindi, il telugu, l’urdu, il russo e molte altre. Questo sviluppo ha implicazioni significative per l’accessibilità globale, rendendo GPT-4o uno strumento sempre più inclusivo e universale.
6. Eccellenza nei benchmark
Nonostante OpenAI abbia scelto di concentrarsi maggiormente sugli aspetti esperienziali piuttosto che sui numeri dei benchmark, le prestazioni di GPT-4o non passano inosservate. Il modello supera sia i concorrenti proprietari che quelli open-source, ottenendo punteggi straordinari in diversi test di riferimento. Questi risultati confermano la posizione di GPT-4o come leader indiscusso nel campo dell’intelligenza artificiale.
Quanto costa ChatGPT 4 Plus?
L’abbonamento a ChatGPT Plus di OpenAI costa 20 dollari al mese e offre diversi vantaggi rispetto alla versione gratuita di ChatGPT, come l’accesso a ChatGPT senza limiti di utilizzo; la possibilità di accedere a funzionalità aggiuntive e la priorità di accesso alle nuove funzionalità e modelli di OpenAI.
Per questo l’abbonamento a pagamento è particolarmente adatto agli utenti avanzati che vogliono sfruttare appieno le capacità dell’AI con conversazioni lunghe e articolate. Per usi sporadici o singole domande veloci, la versione gratuita potrebbe già bastare, anche perché presto verrà potenziata con il nuovo modello GPT-4.0.