Google ha pubblicato un documento che fornisce alcuni dettagli sul supercomputer utilizzato per addestrare i modelli IA, tra cui quello alla base di Bard. La TPU (Tensor Processing Unit) di quarta generazione offre prestazioni superiori a quelle del chip NVIDIA A100, consumando molto meno.
Supercomputer con 4.096 TPU v4
Per addestrare i modelli IA è necessaria un’enorme potenza di calcolo. I cosiddetti LLM (Large Language Model) diventano sempre più grandi (miliardi di parametri), quindi Google ha aggiornato il supercomputer passando da 256 TPU v2 a 4.096 TPU v4. Contestualmente sono stati aggiornati gli switch ottici che permettono il collegamento tra i vari nodi.
A causa della dimensione dei modelli IA da addestrare (Google LaMDA, usato per Bard, ha 137 miliardi di parametri) è necessario distribuire i calcoli tra migliaia di chip che lavorano in parallelo. Il training del modello PaLM di Google, il più grande del mondo con 540 miliardi di parametri, viene effettuato con due supercomputer da 4.096 chip per 50 giorni.
Una singola TPU v4 offre una potenza di picco pari a 275 TFLOPS, consumando un massimo di 192 Watt. Rispetto al chip NVIDIA A100 è fino a 1,7 volte più veloce e fino a 1,9 volte più efficiente. NVIDIA ha annunciato il chip H100, successore di A100, ma Google non ha effettuato un confronto perché appartiene ad una generazione successiva.
Le TPU v4 richiedono meno energia, quindi generano meno emissioni di CO2. I supercomputer usati per addestrare i modelli IA di Google si trovano nel data center di Mayes County in Oklahoma. Il sistema è stato utilizzato anche da Midjourney per addestrare il suo modello che può generare immagini a partire da una descrizione testuale (in pratica il concorrente di Bing Image Creator basato su DALL-E 2 di OpenAI).