Negli ultimi mesi OpenAI ha rilasciato diversi nuovi strumenti, tra cui Operator, Deep Research, GPT-4.5, e o1-Pro, il modello più costoso di sempre. Oggi ha annunciato dei nuovi modelli audio nelle API, per consentire agli
agli sviluppatori di creare agenti vocali più potenti, personalizzabili ed espressivi che mai.
OpenAI presenta nuovi modelli audio per gli assistenti vocali
I nuovi modelli di riconoscimento vocale di OpenAI, gpt-4o-transcribe e gpt-4o-mini-transcribe, sono una spanna avanti rispetto ai precedenti modelli Whisper. Grazie all’apprendimento per rinforzo e a un addestramento intensivo su dataset audio di alta qualità e diversificati, sono in grado di ridurre drasticamente gli errori di trascrizione.
Che si abbia un accento particolare, che si sia in un ambiente rumoroso o che si parli a velocità variabili, poco importa. I nuovi modelli di OpenAI sono in grado di cogliere le sfumature del discorso e di trascrivere in modo affidabile anche in condizioni non ideali.
OpenAI non si è limitata a migliorare la comprensione del parlato. Con il nuovo modello di sintesi vocale gpt-4o-mini-tts, gli sviluppatori hanno il pieno controllo su come l’AI articola il testo. Si vuole un tono più formale per l’assistente virtuale? O magari si preferisce un approccio più colloquiale? Con gpt-4o-mini-tts, si può istruire il modello su come pronunciare ogni parola, ogni frase. Per ora le voci sono ancora artificiali e preimpostate, ma sicuramente miglioreranno nel tempo.
Prezzi per tutte le tasche
OpenAI ha deciso di non far pagare un occhio della testa per questi nuovi modelli. I costi variano da 0,3 centesimi al minuto per gpt-4o-mini-transcribe a 1,5 centesimi al minuto per gpt-4o-mini-tts. I prezzi quindi, sono abbordabili per chiunque voglia portare l’AI vocale nella propria app o servizio.