Meta ha appena svelato un’anteprima di Chameleon, la sua nuova famiglia di modelli AI progettata per essere nativamente multimodale. Questa mossa strategica è la risposta di Meta alla crescente competizione nel campo dell’AI generativa, e in particolare ai modelli rilasciati dai suoi rivali, OpenAI in primis.
Un approccio innovativo alla multimodalità
A differenza dell’approccio comune di addestrare un modello separato per ogni modalità e poi mettere insieme i risultati usando aggregatori, noto come “late fusion”, Chameleon adotta un’architettura “early-fusion token-based mixed-modal”. Questo significa che il modello è stato progettato da zero per apprendere da una miscela unia di immagini, testo, codice e altre modalità.
Chameleon trasforma le immagini in token specifici, proprio come i modelli linguistici fanno con le parole, utilizzando un vocabolario unificato di token di testo, codice e immagine. Questa caratteristica consente di applicare la stessa architettura di trasformazione a sequenze contenenti sia token di immagine che di testo, consentendo al modello di ragionare e generare sequenze di immagini e testi senza la necessità di componenti specifici per ogni modalità.
Secondo i ricercatori, il modello più simile a Chameleon è Google Gemini, che utilizza anch’esso un approccio early-fusion token.
Superare le sfide dell’addestramento e della scalabilità
Sebbene l’architettura early-fusion token-based mixed-modal presenti notevoli vantaggi, pone anche sfide significative durante l’addestramento e la scalabilità del modello. Per affrontare queste problematiche, i ricercatori di Meta hanno implementato una serie di modifiche architettoniche e tecniche di addestramento innovative.
L’addestramento di Chameleon avviene in due fasi, utilizzando un set di dati contenente 4,4 trilioni di token di testo, coppie immagine-testo e sequenze di testo e immagini collegate. Le versioni da 7 miliardi e 34 miliardi di parametri sono state addestrate su oltre 5 milioni di ore di GPU Nvidia A100 80GB.
Gli esperimenti condotti dimostrano che Chameleon raggiunge prestazioni allo stato dell’arte in vari compiti, tra cui la risposta a domande visive (VQA) e la didascalia delle immagini, superando modelli come Flamingo, IDEFICS e Llava-1.5. Inoltre, Chameleon rimane competitivo nei benchmark di solo testo, eguagliando modelli come Mixtral 8x7B e Gemini-Pro.
Verso un futuro multimodale aperto
Con il rilascio di nuovi modelli multimodali da parte di OpenAI e Google, Meta potrebbe distinguersi offrendo un’alternativa aperta ai modelli privati. Inoltre, l’approccio early-fusion token-based mixed-modal di Chameleon potrebbe ispirare nuove direzioni di ricerca su modelli più avanzati, in particolare con l’integrazione di ulteriori modalità.
I ricercatori di Meta sottolineano che “Chameleon rappresenta un passo significativo verso la realizzazione della visione di modelli di base unificati in grado di ragionare e generare contenuti multimodali in modo flessibile“.