La scorsa settimana, OpenAI ha presentato il suo ultimo modello AI, il fiammante GPT-4o, che promette un significativo aggiornamento delle capacità di ChatGPT. Basandosi sul successo di GPT-4, questo nuovo modello si propone di rendere il chatbot ancora più intelligente, user-friendly e accessibile a tutti gli utenti, compresi quelli che non hanno sottoscritto un abbonamento a pagamento.
Il rilascio di GPT-4o è stato seguito da numerose dimostrazioni che ne hanno evidenziato le potenzialità, come l’analisi avanzata degli input visivi, la risoluzione di complesse equazioni matematiche e l’interpretazione delle espressioni facciali. Il nuovo modello è anche in grado di generare contenuti e comprendere comandi vocali, tramite testo o immagini, offrendo risposte in tempo reale.
Cos’è GPT-4o e come funziona
GPT-4o di OpenAI, la “o” sta per omni (che significa “tutti” o “universalmente”), è stato rilasciato durante un annuncio e una dimostrazione in diretta streaming il 13 maggio 2024. Si tratta di un modello multimodale con capacità di input e output testuale, visivo e audio, che si basa sulla precedente versione del modello GPT-4 with Vision di OpenAI, GPT-4 Turbo. La potenza e la velocità di GPT-4o derivano dall’essere un unico modello che gestisce più modalità. Le versioni precedenti di GPT-4 utilizzavano più modelli per un singolo obiettivo specifico (da voce a testo, da testo a voce, da testo a immagine) e creavano un’esperienza frammentata di passaggio da un modello all’altro per compiti diversi.
Rispetto al GPT-4 Turbo, OpenAI sostiene che è due volte più veloce, il 50% più economico sia per i token in ingresso (5 dollari per milione) che per quelli in uscita (15 dollari per milione) e ha un limite di velocità cinque volte superiore (fino a 10 milioni di token al minuto). GPT-4o ha una finestra di contesto di 128K e ha una data di scadenza delle conoscenze fissata a ottobre 2023. Alcune delle nuove funzionalità sono attualmente disponibili online attraverso ChatGPT, l’app sui dispositivi mobili (ma solo a pagamento) , l’API OpenAI e Microsoft Azure.
GPT-4o gratis per tutti, ma…
Come promesso da Sam Altman, il nuovo modello GPT-4o sarà disponibile sia per gli utenti gratuiti che per gli abbonati Plus di OpenAI, seppur con alcune differenze sostanziali. Tuttavia, per quanto riguarda gli utenti non a pagamento, l’interazione con GPT-4o avrà dei limiti precisi: raggiunto un certo numero di messaggi scambiati, il chatbot passerà automaticamente alla versione 3.5, più datata ma comunque performante.
Viceversa, chi è abbonato al servizio Plus potrà sfruttare GPT-4o per un numero di messaggi 5 volte superiore prima del downgrade a GPT-3.5. Resterà inoltre esclusiva per gli abbonati Plus la creazione e condivisione di chatbot personalizzati sul GPT Store di OpenAI. Anche l’accesso anticipato a nuove funzionalità, come il generatore di immagini DALL-E 3, rimarrà un vantaggio riservato ai soli utenti paganti.
10 utilizzi creativi di GPT-4o
Il nuovo modello è in grado di parlare, vedere e interagire con l’utente in modo integrato e senza soluzione di continuità, più delle versioni precedenti, attraverso l’interfaccia conversazionale di ChatGPT. Nell’annuncio di presentazione di GPT-4o, OpenAI si è soffermata sulla capacità del modello di garantire “un’interazione uomo-macchina molto più naturale”.
La maggiore capacità di integrare linguaggi differenti permette, infatti, a GPT-4o di avvicinarsi sempre più ad una comunicazione fluida ed intuitiva con gli esseri umani. Ecco tutto quello che si può fare con il nuovo modello di OpenAI!
1. Analisi dei dati
GPT-4o ha dimostrato la capacità di elaborare fogli di calcolo e di condurre analisi dei dati in soli 30 secondi. Con un solo prompt, il chatbot consente agli utenti di trasformare rapidamente i dati grezzi in approfondimenti e funziona come strumento per la generazione di grafici, diagrammi e statistiche.
2. Creazione di modelli 3D
GPT-4o è anche in grado di generare modelli 3D da richieste di testo in meno di 30 secondi. Questa funzione facilita la prototipazione rapida, consentendo la creazione e la visualizzazione di modelli dettagliati senza richiedere software specializzati o conoscenze tecniche approfondite.
3. Trascrizione di testi storici
GPT-4o vanta capacità avanzate di riconoscimento delle immagini, che gli utenti hanno utilizzato in vari modi creativi. Tra questi, l’utilizzo per trascrivere vecchi scritti risalenti al 1800. Questa funzione consente di convertire facilmente i documenti storici in formati digitali.
4. Analisi delle espressioni facciali
Il nuovo modello GPT-4o possiede sofisticate capacità di riconoscimento delle immagini, che gli consentono di interpretare ed analizzare approfonditamente i volti umani e le relative espressioni facciali. In particolare, è in grado di comprendere le specifiche emozioni e stati d’animo che quell’espressione comunica, descrivendone accuratamente le caratteristiche.
5. Traduzione in tempo reale
GPT-4 può eseguire traduzioni in tempo reale in più lingue. Questa funzione consente agli utenti di ricevere traduzioni istantanee, facilitando la comunicazione e le interazioni in contesti linguistici diversi.
6. Matematica
Dopo il lancio iniziale di ChatGPT, ci sono state critiche riguardo alla sua incapacità di eseguire semplici calcoli. Tuttavia GPT-4o, presenta capacità di ragionamento migliorate e può rispondere a domande matematiche anche complesse con maggiore precisione. Inoltre, fornisce spiegazioni dettagliate sulle fasi di risoluzione dei problemi.
7. Generare videogiochi
Un utente è riuscito a creare un videogame in pochi secondi basandosi solo su uno screenshot. Alvaro Cintra ha usato GPT-4o per generare il codice Python di un videogioco completamente funzionante chiamato “Breakout”, partendo solo da uno screenshot del gioco e dalla semplice richiesta: “Puoi per favore codificare questo in Python?“.
8. Funzioni di assistenza visiva
Una nota positiva è che le funzionalità avanzate del GPT-4o potrebbero rendere il mondo più accessibile alle persone ipovedenti, offrendo assistenza visiva in tempo reale. Questa tecnologia è in grado di descrivere l’ambiente circostante, identificare gli oggetti e leggere il testo, aiutando la navigazione e l’interazione con gli ambienti.
9. Codifica
GPT-4o continua a dimostrare capacità di codifica avanzate, dato che gli utenti lo hanno utilizzato con successo per vari compiti di programmazione. Un utente è stato in grado di generare il codice di Facebook Messenger e di clonare siti web in pochi secondi.
Un altro esempio è quello di un utente che ha generato il codice HTML e CSS per una pagina web basandosi su un disegno del layout della pagina.
10. Incremento della produttività (come suggerisce Sam Altman)
Infine, Sam Altman, CEO di OpenAI, ha dichiarato di utilizzare GPT-4o come assistente personale per migliorare la sua produttività. Invece di cambiare scheda e interrompere il suo flusso di lavoro, si affida a GPT-4o per ottenere risposte istantanee, aiutandolo a essere più produttivo, e a non perdere lo slancio.