Amazon ha appena annunciato un nuovo aggiornamento per Alexa, che la rende più naturale e capace di interagire con gli utenti. L’assistente vocale ora può riconoscere le emozioni e il tono di voce di chi gli parla, e adattare la sua risposta di conseguenza. Inoltre, può continuare le conversazioni senza che l’utente debba ripetere la parola d’ordine “Alexa” ogni volta.
Grazie a un avanzato motore “speech-to-speech” basato sull’intelligenza artificiale, Alexa sarà in grado di rilevare le emozioni dell’utente e il tono della sua voce. Questo gli consentirà di rispondere in modo più naturale e realistico, creando un’esperienza di interazione più fluida e coinvolgente.
La nuova voce di Alexa sarà meno robotica
L’azienda ha presentato la nuova voce, che offre un suono meno robotico di Alexa e una maggiore espressività, grazie a grandi trasformatori addestrati per lingue e accenti diversi.
Un esempio concreto potrebbe essere quando un utente chiede all’assistente vocale un aggiornamento sulla sua squadra di calcio preferita. Se la squadra ha vinto l’ultima partita, Alexa sarà in grado di rispondere con una voce gioiosa, comunicando così l’entusiasmo della vittoria. Al contrario, se la squadra avesse perso, Alexa adotterà un tono più empatico, mostrando comprensione per la delusione dell’utente. In entrambi i casi, Alexa sarà in grado di adattare la sua voce per rendere l’esperienza di interazione emotivamente coinvolgente.
Le tecnologie Large Text-to-Speech e Speech-to-Speech
Come ha affermato l’SVP di Alexa Rohit Prasad: “Stiamo sviluppando un nuovo modello di conversazione, basato su potenti trasformatori, che chiamiamo speech-to-speech. Questo modello non ha bisogno di trasformare l’audio dell’utente in testo con il riconoscimento vocale, né di usare un LLM (Large Language Model) per generare una risposta testuale o un’azione, né di usare il text-to-speech per produrre l’audio. Questo modello unisce tutti questi passaggi, creando un’esperienza di conversazione più fluida e naturale.”
Secondo quanto dichiarato da Amazon, l’assistente vocale sarà in grado di esprimere attributi come la risata, la sorpresa e persino risposte come “uh-huh” per incoraggiare gli utenti a proseguire la conversazione.
Il tutto grazie alle tecnologie Large Text-to-Speech (LTTS) e Speech-to-Speech (S2S) di Amazon. Grazie a LTTS, l’assistente vocale è in grado di personalizzare le sue risposte utilizzando input testuali come la richiesta dell’utente o l’argomento della conversazione in corso. Mentre S2S consente ad Alexa di integrare input audio insieme al testo, permettendogli di fornire risposte più ricche ed esaustive durante le conversazioni.
Amazon ha evidenziato come queste tecnologie contribuiscano a migliorare l’esperienza di interazione con Alexa, rendendo le conversazioni più interessanti e scorrevoli.