Google ha annunciato la disponibilità in anteprima pubblica di Gemini 1.5 Pro, il suo modello di AI generativa più avanzato, durante la conferenza Cloud Next 2024 a Las Vegas. Questo modello, lanciato a febbraio, si distingue per la sua capacità di elaborare una quantità di contesto senza precedenti, aprendo la strada a nuove ed entusiasmanti applicazioni nel campo dell’intelligenza artificiale.
Una finestra di contesto mai vista prima
La caratteristica principale di Gemini 1.5 Pro è la sua capacità di elaborare da 128.000 a 1 milione di token, ovvero bit suddivisi di dati grezzi. Questo equivale a circa 700.000 parole o 30.000 righe di codice, superando di gran lunga i modelli concorrenti come Claude 3 di Anthropic e GPT-4 Turbo di OpenAI.
Un contesto così ampio permette a Gemini 1.5 Pro di cogliere meglio il flusso narrativo dei dati, generare risposte più ricche e ridurre la necessità di messa a punto. Questo si traduce in conversazioni e analisi più fluide e pertinenti. Le potenzialità di un modello con una finestra contestuale da 1 milione di token sono molteplici.
Gemini 1.5 Pro può analizzare librerie di codice, esaminare lunghi documenti, tenere conversazioni approfondite e persino analizzare e confrontare contenuti multimediali in diverse lingue, grazie alle sue capacità multilingue e multimodali. Inoltre, è in grado di generare trascrizioni per videoclip, aprendo la strada a nuove opportunità nel campo dell’analisi dei contenuti audiovisivi.
I primi clienti di Gemini Pro 1.5
I primi utenti di Gemini 1.5 Pro, tra cui United Wholesale Mortgage, TBS e Replit, stanno già sfruttando le sue capacità per attività che vanno dalla sottoscrizione di mutui all’automazione dell’etichettatura dei metadati negli archivi multimediali, fino alla generazione e trasformazione del codice.
Tuttavia, l’elaborazione di un milione di token richiede ancora tempi di elaborazione più lunghi rispetto alle query di ChatGPT. Google è consapevole di questa sfida e sta lavorando per ottimizzare il modello nel tempo.