OpenAI, nuovi modelli audio per assistenti vocali più intelligenti

OpenAI, nuovi modelli audio per assistenti vocali più intelligenti

OpenAI presenta dei nuovi modelli audio AI per migliorare le capacità di trascrizione vocale e sintesi del parlato negli assistenti vocali.
OpenAI, nuovi modelli audio per assistenti vocali più intelligenti
OpenAI presenta dei nuovi modelli audio AI per migliorare le capacità di trascrizione vocale e sintesi del parlato negli assistenti vocali.

Negli ultimi mesi OpenAI ha rilasciato diversi nuovi strumenti, tra cui Operator, Deep Research, GPT-4.5, e o1-Pro, il modello più costoso di sempre. Oggi ha annunciato dei nuovi modelli audio nelle API, per consentire agli
agli sviluppatori di creare agenti vocali più potenti, personalizzabili ed espressivi che mai.

OpenAI presenta nuovi modelli audio per gli assistenti vocali

I nuovi modelli di riconoscimento vocale di OpenAI, gpt-4o-transcribe e gpt-4o-mini-transcribe, sono una spanna avanti rispetto ai precedenti modelli Whisper. Grazie all’apprendimento per rinforzo e a un addestramento intensivo su dataset audio di alta qualità e diversificati, sono in grado di ridurre drasticamente gli errori di trascrizione.

Che si abbia un accento particolare, che si sia in un ambiente rumoroso o che si parli a velocità variabili, poco importa. I nuovi modelli di OpenAI sono in grado di cogliere le sfumature del discorso e di trascrivere in modo affidabile anche in condizioni non ideali.

OpenAI non si è limitata a migliorare la comprensione del parlato. Con il nuovo modello di sintesi vocale gpt-4o-mini-tts, gli sviluppatori hanno il pieno controllo su come l’AI articola il testo. Si vuole un tono più formale per l’assistente virtuale? O magari si preferisce un approccio più colloquiale? Con gpt-4o-mini-tts, si può istruire il modello su come pronunciare ogni parola, ogni frase. Per ora le voci sono ancora artificiali e preimpostate, ma sicuramente miglioreranno nel tempo.

Prezzi per tutte le tasche

OpenAI ha deciso di non far pagare un occhio della testa per questi nuovi modelli. I costi variano da 0,3 centesimi al minuto per gpt-4o-mini-transcribe a 1,5 centesimi al minuto per gpt-4o-mini-tts. I prezzi quindi, sono abbordabili per chiunque voglia portare l’AI vocale nella propria app o servizio.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
21 mar 2025
Link copiato negli appunti