OpenAI ha iniziato il roll-out della modalità vocale avanzata di ChatGPT, che darà agli utenti l’accesso alle risposte audio iper-realistiche di GPT-4o. La versione alfa, inizialmente disponibile per un ristretto gruppo di abbonati a ChatGPT Plus, verrà gradualmente estesa a tutti gli utenti Plus entro l’autunno del 2024.
We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions. pic.twitter.com/64O94EhhXK
— OpenAI (@OpenAI) July 30, 2024
La voce Sky che ha scosso il mondo
La prima dimostrazione della voce di GPT-4o, avvenuta a maggio, ha lasciato il pubblico a bocca aperta. La voce, denominata Sky, ha stupito per la sua incredibile somiglianza con quella di un essere umano, in particolare con quella dell’attrice Scarlett Johansson, protagonista del film “Her” in cui interpreta, guarda caso, un assistente vocale AI.
Le polemiche non sono mancate, con la Johansson che ha dichiarato di aver rifiutato diverse richieste di utilizzo della sua voce da parte di OpenAI e ha assunto persino un legale per difendersi. OpenAI ha negato di aver usato la voce dell’attrice e ha rimosso la voce Sky mostrata nella demo, ritardando il rilascio della modalità vocale avanzata per rafforzare le misure di sicurezza.
Dopo un mese di attesa, OpenAI ha annunciato che le funzionalità di video e condivisione dello schermo, presentate durante lo Spring Update, non saranno incluse in questa versione alfa, ma verranno lanciate in un secondo momento. Tuttavia, alcuni utenti Plus avranno finalmente accesso alla tanto attesa funzione vocale di ChatGPT, seppur in una versione leggermente diversa da quella mostrata nella demo che ha fatto scalpore.
GPT-4o: un modello all’avanguardia
La nuova modalità vocale avanzata di ChatGPT si distingue nettamente dalla precedente, che richiedeva l’utilizzo di tre modelli separati per convertire la voce in testo, elaborare le richieste e trasformare il testo di ChatGPT in voce. GPT-4o, invece, è un modello multimodale in grado di gestire tutti questi compiti in modo autonomo, riducendo significativamente la latenza delle conversazioni. Inoltre, GPT-4o è in grado di percepire le sfumature emotive nella voce, come tristezza, eccitazione o se si sta cantando.
Roll-out graduale della nuova modalità vocale
OpenAI sta rilasciando la nuova voce di ChatGPT in modo graduale, al fine di monitorarne attentamente l’utilizzo. Gli utenti selezionati per il gruppo alfa riceveranno una notifica nell’app ChatGPT e un’e-mail con le istruzioni per l’uso. Nei mesi successivi alla demo di maggio, OpenAI ha sottoposto GPT-4o a test approfonditi con oltre 100 red teamer esterni, coprendo 45 lingue diverse. Un rapporto dettagliato su questi sforzi di sicurezza sarà disponibile all’inizio di agosto.
Voci preimpostate e diritti d’autore
Per evitare controversie legate ai deepfake e alle violazioni del copyright, OpenAI ha limitato la modalità vocale avanzata a quattro voci preimpostate – Juniper, Breeze, Cove ed Ember – realizzate in collaborazione con doppiatori retribuiti.
Inoltre, sono stati introdotti nuovi filtri per bloccare le richieste di generazione di musica o altri audio protetti da copyright, al fine di evitare potenziali guai legali come quelli che hanno coinvolto altre aziende di intelligenza artificiale nell’ultimo anno. Non dimentichiamo che, recentemente, le case discografiche hanno citato in giudizio i generatori di canzoni AI Suno e Udio.