Un nuovo modello di apprendimento automatico (ML) proposto dai ricercatori di Meta e dell’University of Southern California mira a risolvere alcune delle sfide fondamentali dei Transformer, l’architettura di rete neurale che ha dato origine all’era dei modelli linguistici di grandi dimensioni (LLM).
Il nuovo modello, chiamato Megalodon, consente ai modelli linguistici di estendere la loro finestra di contesto a milioni di token senza richiedere enormi quantità di memoria. Gli esperimenti dimostrano che Megalodon supera i modelli Transformer di pari dimensioni nell’elaborazione di testi di grandi dimensioni.
L’importanza della finestra di contesto lunga
La “finestra di contesto” è il numero di token su cui un modello può lavorare in qualsiasi momento. Finestre di contesto più ampie consentono agi LLM di elaborare documenti più lunghi e di estendere le loro capacità di apprendimento contestuale. Tuttavia, l’estensione della finestra di contesto dei Transformer ha un costo elevato.
Il Transformer ha per definizione una “complessità quadratica“, il che significa che ogni volta che si raddoppia la dimensione dell’input, la memoria e il tempo di calcolo necessari per elaborare l’input quadruplicano. Questa relazione quadratica è dovuta al meccanismo di auto-attenzione dei trasformatori, che confronta ogni elemento della sequenza di input con ogni altro elemento.
La soluzione di Megalodon
Megalodon si basa sulla Moving Average Equipped Gated Attention (MEGA), una tecnica presentata per la prima volta nel 2022. MEGA apporta modifiche al meccanismo di attenzione in modo da ridurre significativamente la complessità del modello, permettendo all’LLM di elaborare input più lunghi senza far intaccare i requisiti di memoria e di calcolo. MEGA utilizza anche la media mobile esponenziale (EMA), una tecnica collaudata che aiuta i modelli a porre la giusta enfasi sulle relazioni locali e a lunga distanza tra i token.
Megalodon migliora ulteriormente MEGA con alcune modifiche chiave all’architettura che portano le sue prestazioni alla pari con il meccanismo di attenzione completa utilizzato nel modello Transformer originale. Megalodon utilizza anche la “chunk-wise attention“, che divide la sequenza di input in blocchi di dimensioni fisse per ridurre la complessità del modello da quadratica a lineare. La chunk-wise attention consente inoltre di aggiungere un ulteriore livello di parallelismo che velocizza l’addestramento del modello.
Megalodon eguaglia le prestazioni di Llama-2-13B
I ricercatori hanno addestrato una versione di Megalodon da 7 miliardi di parametri su 2 trilioni di token e l’hanno confrontata con Llama-2-7B, 13B e altri modelli. Gli esperimenti dimostrano che Megalodon-7B “supera in modo significativo la variante allo stato dell’arte di Transformer utilizzata per addestrare LLAMA2-7B sia per quanto riguarda la perplessità dell’addestramento sia per quanto riguarda i benchmark a valle“. In alcuni compiti, Megalodon-7B eguaglia le prestazioni di Llama-2-13B.
Con una finestra di contesto di 4.000 token, Megalodon è leggermente più lento di Llama-2, ma quando la lunghezza del contesto viene estesa a 32.000 token, Megalodon supera Llama-2 in modo significativo grazie alla sua efficienza computazionale. Inoltre, i ricercatori affermano che i risultati sperimentali sulla modellazione di contesti lunghi suggeriscono che Megalodon può modellare sequenze di lunghezza illimitata.
I ricercatori hanno ottenuto risultati promettenti anche in esperimenti su piccola e media scala su altre modalità di dati e lavoreranno per adattare Megalodon a contesti multimodali. Il codice di Megalodon è stato rilasciato su GitHub con licenza MIT, il che significa che può essere adattato e utilizzato per scopi commerciali senza restrizioni.
Il futuro dei modelli Transformer
Nel frattempo, altri ricercatori stanno lavorando alla modifica dell’architettura di Transformer per ridurre i requisiti di memoria e di calcolo. Ad esempio, Infini-attention, un recente lavoro dei ricercatori di Google, mira a dare ai modelli Transformer finestre di contesto illimitate senza aumentare la memoria e il calcolo.