Grok ha recentemente aggiornato il proprio sito web introducendo una nuova funzionalità, che consente agli utenti di ottenere risposte quasi istantaneamente e di interagire con altri modelli linguistici di grandi dimensioni. Inoltre, sistema consente di digitare le query, ma anche di pronunciarle attraverso i comandi vocali.
Questa funzionalità è stata introdotta in sordina la scorsa settimana e le prestazioni sono notevolmente migliorate rispetto al passato. Mentre in precedenza i tempi di risposta erano nell’ordine di diversi secondi, ora le risposte arrivano in una frazione di secondo.
Velocità impressionante e supporto per comandi vocali
Groq è in grado di rispondere a circa 1256,54 token al secondo, una velocità che sembra quasi istantanea e che, secondo l’azienda, i chip GPU di concorrenti come Nvidia non sono in grado di eguagliare. Questa velocità supera quella già impressionante di 800 token al secondo mostrata da Groq ad aprile. Inoltre, il sistema consente non solo di digitare le query, ma anche di pronunciarle attraverso comandi vocali.
Ampia scelta di modelli linguistici e flessibilità
Per impostazione predefinita, il motore del sito di Groq utilizza Llama 3 di Meta attualmente ritenuto il miglior modello AI open source. Tuttavia, è possibile scegliere tra diversi altri modelli, tra cui il più grande Llama3-70b, alcuni modelli Gemma (Google) e Mistral. L’azienda ha dichiarato che presto supporterà anche altri modelli.
L’esperienza offerta da Groq è significativa perché dimostra a sviluppatori e non sviluppatori quanto veloce e flessibile possa essere un chatbot LLM. Jonathan Ross, CEO di Groq, afferma che l’utilizzo degli LLM aumenterà ulteriormente quando le persone vedranno quanto sia facile utilizzarli sul veloce motore di Groq. La demo offre infatti un assaggio di quali altri compiti possono essere svolti facilmente a questa velocità, come la generazione e la modifica al volo di annunci di lavoro o articoli.
Grok, un campione di efficienza energetica
Groq afferma che la sua tecnologia utilizza circa un terzo della potenza di una GPU nel peggiore dei casi, ma la maggior parte dei suoi carichi di lavoro utilizza anche solo un decimo della potenza.
In un mondo in cui sembra che i carichi di lavoro LLM non smetteranno mai di scalare e la domanda di energia continuerà a crescere, l’efficienza di Groq rappresenta una sfida al panorama del calcolo dominato dalle GPU. Ross sostiene infatti che entro il prossimo anno oltre la metà del calcolo di inferenza del mondo sarà eseguito sui chip di Groq.