OpenAI ha annunciato la disponibilità della API (Application Programming Interface) che permettono di utilizzare il modello speech-to-text Whisper. Gli sviluppatori possono sfruttare il riconoscimento vocale per traduzioni e trascrizioni in app, servizi e prodotti. La società ha inoltre fornito le API che consentono di usare ChatGPT in app e servizi.
Whisper: riconoscimento vocale con rete neurale
OpenAI ha pubblicato un primo elenco di app e servizi che utilizzano le nuove API. Quelle di ChatGPT, basate sul modello GPT-3.5-turbo, sono già usate in Snapchat Plus, Quizlet, Instacart e Shopify Shop. Le API di Whisper sono usate invece in Speak, un’app per l’apprendimento delle lingue.
Whisper è un sistema di riconoscimento vocale automatico che sfrutta una rete neurale addestrata con oltre 680.000 ore di dati. Gli sviluppatori possono usare le API per accedere al modello large-V2 al prezzo di 0,006 dollari al minuto. Esiste anche l’accesso gratuito, ma le prestazioni sono inferiori.
Whisper può trascrivere un audio in qualsiasi lingua, ovvero mostrare il testo durante la riproduzione. La traduzione è invece possibile solo in inglese a partire dall’audio in 57 lingue. Le lingue supportate dal modello sono 98 in totale, ma l’elenco è limitato a quelle che offrono una percentuale di errore inferiore al 50%.
Gli sviluppatori possono usare file nei formati mp3, mp4, mpeg, mpga, m4a, wav e webm. La dimensione massima è 25 MB. I file più grandi devono essere divisi in blocchi da 25 MB o meno. L’operazione può essere effettuata con il pacchetto PyDub.