NVIDIA ha annunciato diversi miglioramenti hardware e software per Eos, grazie ai quali sono state raggiunte prestazioni inimmaginabili. Il supercomputer dell’azienda californiana può completare l’addestramento (training) del modello GPT-3 con 175 miliardi di parametri in meno di 4 minuti. Una simile configurazione viene utilizza da Microsoft nell’infrastruttura Azure.
Supercomputer IA con 10.752 GPU
NVIDIA Eos è stato annunciato il 22 marzo 2022. La prima versione aveva 4.608 GPU H100. Il test con il benchmark MLPerf è stato effettuato con una configurazione decisamente più potente. Il supercomputer con 10.752 GPU H100 collegate tramite un sistema Quantum-2 InfiniBand ha completato il training di un modello GPT-3 con 175 miliardi di parametri in 3,9 minuti.
Il benchmark usa una porzione del dataset del modello GPT-3, quindi l’addestramento del modello completo (circa 3,7 trilioni di parametri) dovrebbe richiedere solo 8 giorni. L’incremento di prestazioni riduce i costi, consente di risparmiare energia e velocizza il time-to-market. La configurazione con 10.752 GPU H100 viene usata da Microsoft per Azure. Le prestazioni sono simili (circa 4 minuti).
NVIDIA ha ottenuto altri cinque record con MLPerf. Usando 1.024 GPU H100 ha completato il training del modello Stable Diffusion (text-to-image) in 2,5 minuti. Gli altri record sono: DLRM (un minuto con 128 GPU), BERT-Large (7,2 secondi con 3.472 GPU), RetinaNet (55,2 secondi con 2.048 GPU) e 3D U-Net (46 secondi con 768 GPU).
I sistemi NVIDIA sono ampiamente utilizzati in altri settori. In base al test MLPerf HPC, le GPU H100 (non è noto il numero) possono completare il training del modello OpenFold in 7,5 minuti. OpenFold permette di determinare la struttura 3D di una proteina a partire dalla sua sequenza di aminoacidi, operazione che finora richiedeva settimane o mesi di lavoro.