La modalità vocale avanzata di OpenAI, una delle funzioni più attese dell’evento Spring Launch di OpenAI, è finalmente uscita dalla fase alpha ed è disponibile per tutti gli utenti di ChatGPT Plus e Team.
OpenAI ha annunciato l’inizio del roll-out della modalità vocale avanzata per gli utenti di ChatGPT Plus e Team, che offrirà un assistente vocale più intelligente, in grado di comprendere quando l’utente lo interrompe e di adattare le risposte al tono emotivo. Il lancio prevede anche cinque nuove voci: Arbor, Maple, Sol, Spruce e Vale, disponibili sia nella modalità vocale standard che in quella avanzata.
ChatGPT Plus e Team con la modalità avanzata in 50 lingue
OpenAI ha dichiarato che il rollout per gli utenti di ChatGPT Plus e Team sarà graduale, mentre il rollout per i livelli Enterprise ed Edu avverrà la prossima settimana. Gli utenti sapranno se hanno ottenuto l’accesso grazie a un messaggio pop-up accanto all’opzione Voice Mode nell’interfaccia di ChatGPT.
Sfortunatamente, come si legge anche nelle FAQ di OpenAI, la modalità vocale avanzata non è attualmente disponibile nell’Unione Europea, nel Regno Unito, in Svizzera, Islanda, Norvegia e Liechtenstein.
Dal rilascio della versione alpha a luglio, OpenAI ha apportato delle migliorie alla modalità vocale avanzata, migliorando gli accenti nelle lingue straniere, la velocità e la fluidità della conversazione. La modalità vocale avanzata ha anche un aspetto diverso, ora rappresentato da una sfera blu animata.
Advanced Voice is rolling out to all Plus and Team users in the ChatGPT app over the course of the week.
While you’ve been patiently waiting, we’ve added Custom Instructions, Memory, five new voices, and improved accents.
It can also say “Sorry I’m late” in over 50 languages. pic.twitter.com/APOqqhXtDg
— OpenAI (@OpenAI) September 24, 2024
Per rendere l’esperienza ancora più personalizzata per l’utente, la modalità vocale avanzata può ora utilizzare le istruzioni personalizzate e la funzione memoria, che le consentono di prendere in considerazione criteri specifici condivisi o designati dall’utente quando produce una risposta.
Come nel caso di Alpha, gli utenti non potranno accedere alle funzionalità multimodali della Modalità vocale, tra cui l’assistenza ai contenuti sullo schermo degli utenti e l’utilizzo della fotocamera del telefono dell’utente come contesto per una risposta, come si vede nel video dimostrativo qui sotto.
Le misure di sicurezza
OpenAI ha testato le funzionalità vocali con oltre 100 red teamer esterni in 45 lingue per garantire la sicurezza del modello. Ad agosto, la startup ha pubblicato la GPT-4o System Card, una relazione approfondita che delinea la sicurezza dell’LLM in base alla valutazione dei rischi secondo il Preparedness Framework di OpenAI, il red-teaming esterno e altro ancora, compresa la modalità vocale avanzata.
L’abbonamento a ChatGPT Plus costa 20 dollari al mese. Tra gli altri vantaggi dell’iscrizione vi sono funzioni avanzate di analisi dei dati, generazione illimitata di immagini, un numero di messaggi cinque volte superiore per GPT-4o e la possibilità di creare GPT personalizzati.
OpenAI non è solo… con Gemini Live
Una settimana dopo la presentazione di questa funzione da parte di OpenAI, a maggio, Google ha presentato una funzione simile, chiamata Gemini Live. Anche questa funzione è un assistente vocale conversazionale supportato da LLM per migliorare la comprensione e il flusso di una conversazione. All’inizio di questo mese, Google ha reso Gemini Live disponibile gratuitamente per tutti gli utenti Android.