I ricercatori di Google hanno presentato “Infini-attention“, una nuova tecnica che consente ai modelli linguistici di lavorare con testi di lunghezza potenzialmente infinita, superando uno dei principali limiti attuali. Fino ad oggi, infatti, le AI più avanzate come ChatGPT soffrono di “perdita di memoria”: se la conversazione è troppo lunga, il modello dimentica il contesto iniziale, con un drastico calo delle prestazioni.
Infini-attention risolve brillantemente questo problema permettendo di espandere all’infinito la “finestra di contesto“, ovvero il numero di parole e frasi su cui il modello può lavorare, mantenendo costanti capacità di calcolo e memoria richieste. In questo modo, gli LLM saranno in grado di gestire dialoghi sempre più lunghi e complessi proprio come fa l’uomo.
Non a caso, uno degli aspetti cruciali su cui si stanno concentrando gli sforzi dei ricercatori è l’aumento della lunghezza del contesto nei modelli linguistici di grandi dimensioni, con l’obiettivo di migliorarne le prestazioni e ottenere un vantaggio competitivo.
Infini-attention: una soluzione innovativa
La nuova tecnica di Google, Infini-attention, promette di rivoluzionare il modo in cui gli LLM gestiscono input di grandi dimensioni. Questa soluzione affronta il problema della complessità quadratica del Transformer, l’architettura di deep learning utilizzata negli LLM, che richiede un aumento esponenziale di memoria e tempo di calcolo all’aumentare della dimensione dei dati di input.
Ad esempio, se si estende la dimensione dell’input da 1.000 a 2.000 token, la memoria e il tempo di calcolo necessari per elaborare l’input non solo raddoppiano, ma quadruplicano.
Infini-attention introduce un modulo di “memoria compressiva” che consente di memorizzare gli stati di attenzione precedenti una volta superata la lunghezza del contesto, mantenendo un numero costante di parametri di memoria per l’efficienza computazionale. Questa modifica fondamentale permette di estendere naturalmente gli LLM esistenti a contesti infinitamente lunghi, aprendo la strada a nuove possibilità di utilizzo.
Risultati promettenti
I test condotti dai ricercatori di Google hanno dimostrato l’efficacia di Infini-attention in diversi benchmark, evidenziando la sua capacità di gestire sequenze di input molto lunghe mantenendo una coerenza superiore e richiedendo una quantità di memoria significativamente inferiore rispetto ad altre tecniche a contesto lungo.
Sebbene Google non abbia ancora rilasciato i modelli o il codice, i risultati riportati sono incoraggianti e in linea con quelli ottenuti da altre soluzioni simili, come Gemini. L’evoluzione degli LLM a contesto lungo sta aprendo nuove opportunità per la creazione di applicazioni personalizzate, semplificando il processo di adattamento dei modelli a compiti specifici senza la necessità di tecniche complesse come il fine-tuning o la retrieval-augmented generation.
Una nuova generazione di sistemi AI adattivi
L’avvento degli LLM con contesto infinito promette di rivoluzionare il modo in cui le organizzazioni e gli sviluppatori creano applicazioni basate sull’elaborazione del linguaggio naturale. La possibilità di inserire grandi quantità di documenti direttamente nel prompt e lasciare che il modello selezioni le parti più rilevanti per ogni richiesta apre la strada a una nuova generazione di sistemi intelligenti e adattivi.
Tuttavia, è importante sottolineare che il contesto infinito non sostituirà completamente altre tecniche, ma piuttosto abbasserà la barriera d’ingresso per lo sviluppo di applicazioni, consentendo la creazione rapida di prototipi funzionanti.
Le aziende dovranno continuare a ottimizzare le procedure di implementazione dei Large Language Models per renderle più efficienti e ridurre i costi di gestione. Anche con tecnologie rivoluzionarie come Infini-attention, questi sistemi IA richiedono, infatti, ingenti risorse computazionali.