ChatGPT Plus, rilascio della modalità vocale avanzata

ChatGPT Plus, rilascio della modalità vocale avanzata

OpenAI rilascia La modalità vocale avanzata di ChatGPT, dando agli utenti Plus l'accesso alle risposte audio iper-realistiche di GPT-4o.
ChatGPT Plus, rilascio della modalità vocale avanzata
OpenAI rilascia La modalità vocale avanzata di ChatGPT, dando agli utenti Plus l'accesso alle risposte audio iper-realistiche di GPT-4o.

OpenAI ha iniziato il roll-out della modalità vocale avanzata di ChatGPT, che darà agli utenti l’accesso alle risposte audio iper-realistiche di GPT-4o. La versione alfa, inizialmente disponibile per un ristretto gruppo di abbonati a ChatGPT Plus, verrà gradualmente estesa a tutti gli utenti Plus entro l’autunno del 2024.

La voce Sky che ha scosso il mondo

La prima dimostrazione della voce di GPT-4o, avvenuta a maggio, ha lasciato il pubblico a bocca aperta. La voce, denominata Sky, ha stupito per la sua incredibile somiglianza con quella di un essere umano, in particolare con quella dell’attrice Scarlett Johansson, protagonista del film “Her” in cui interpreta, guarda caso, un assistente vocale AI.

Le polemiche non sono mancate, con la Johansson che ha dichiarato di aver rifiutato diverse richieste di utilizzo della sua voce da parte di OpenAI e ha assunto persino un legale per difendersi. OpenAI ha negato di aver usato la voce dell’attrice e ha rimosso la voce Sky mostrata nella demo, ritardando il rilascio della modalità vocale avanzata per rafforzare le misure di sicurezza.

Dopo un mese di attesa, OpenAI ha annunciato che le funzionalità di video e condivisione dello schermo, presentate durante lo Spring Update, non saranno incluse in questa versione alfa, ma verranno lanciate in un secondo momento. Tuttavia, alcuni utenti Plus avranno finalmente accesso alla tanto attesa funzione vocale di ChatGPT, seppur in una versione leggermente diversa da quella mostrata nella demo che ha fatto scalpore.

GPT-4o: un modello all’avanguardia

La nuova modalità vocale avanzata di ChatGPT si distingue nettamente dalla precedente, che richiedeva l’utilizzo di tre modelli separati per convertire la voce in testo, elaborare le richieste e trasformare il testo di ChatGPT in voce. GPT-4o, invece, è un modello multimodale in grado di gestire tutti questi compiti in modo autonomo, riducendo significativamente la latenza delle conversazioni. Inoltre, GPT-4o è in grado di percepire le sfumature emotive nella voce, come tristezza, eccitazione o se si sta cantando.

Roll-out graduale della nuova modalità vocale

OpenAI sta rilasciando la nuova voce di ChatGPT in modo graduale, al fine di monitorarne attentamente l’utilizzo. Gli utenti selezionati per il gruppo alfa riceveranno una notifica nell’app ChatGPT e un’e-mail con le istruzioni per l’uso. Nei mesi successivi alla demo di maggio, OpenAI ha sottoposto GPT-4o a test approfonditi con oltre 100 red teamer esterni, coprendo 45 lingue diverse. Un rapporto dettagliato su questi sforzi di sicurezza sarà disponibile all’inizio di agosto.

Voci preimpostate e diritti d’autore

Per evitare controversie legate ai deepfake e alle violazioni del copyright, OpenAI ha limitato la modalità vocale avanzata a quattro voci preimpostate – Juniper, Breeze, Cove ed Ember – realizzate in collaborazione con doppiatori retribuiti.

Inoltre, sono stati introdotti nuovi filtri per bloccare le richieste di generazione di musica o altri audio protetti da copyright, al fine di evitare potenziali guai legali come quelli che hanno coinvolto altre aziende di intelligenza artificiale nell’ultimo anno. Non dimentichiamo che, recentemente, le case discografiche hanno citato in giudizio i generatori di canzoni AI Suno e Udio.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
31 lug 2024
Link copiato negli appunti