ElevenLabs, nota per la sua tecnologia di clonazione vocale, ha introdotto la possibilità di costruire agenti AI conversazionali, personalizzabili con variabili come il tono di voce e la lunghezza delle risposte.
La startup ha riscontrato che molti clienti già utilizzavano le sue funzionalità per creare agenti AI conversazionali. Tuttavia, l’integrazione della base di conoscenze e la gestione delle interruzioni risultavano complicate. Così ha creat una pipeline completa per i bot conversazionali.
Gli agenti AI conversazionali di ElevenLabs da personalizzare
Gli utenti, accedendo al proprio account ElevenLabs, possono selezionare un modello o creare un nuovo progetto per un agente di conversazione. È possibile scegliere la lingua principale dell’agente, il primo messaggio e il prompt del sistema per definire il carattere dell’agente. Gli sviluppatori possono anche scegliere un modello linguistico di grandi dimensioni, come Gemini, GPT o Claude, e regolare la temperatura (parametro che controlla la creatività delle risposte) e il limite di utilizzo dei token.
La piattaforma consente di regolare anche la voce, la latenza, la stabilità, i criteri di autenticazione e la durata massima della conversazione con l‘agente AI. Gli utenti possono aggiungere una base di conoscenze attraverso file, URL o blocchi di testo e integrare LLM personalizzati. L’SDK di ElevenLabs supporta Python, Javascript, React e Swift, e offre un’API WebSocket per una maggiore personalizzazione.
Le aziende possono definire criteri per raccogliere dati come nome ed e-mail dei clienti, oltre a criteri di valutazione per misurare il successo delle chiamate. ElevenLabs utilizza la sua pipeline text-to-speech esistente, ma deve ancora sviluppare funzionalità speech-to-text per il nuovo prodotto AI. Attualmente, l’API speech-to-text non è offerta come prodotto autonomo, ma potrebbe competere in futuro con le API di Google, Microsoft, Amazon e altre specializzate come Whisper di OpenAI.
Le ambizioni di ElevnLabs
Attualmente ElevenLabs è a caccia di nuovi finanziamenti poiché aspira a una valutazione di oltre 3 miliardi di dollari, non solo per competere con altre startup di clonazione vocale, manche con OpenAI e la sua API conversazionale in tempo reale annunciata al DevDay 2024.