Il nuovo modello Gemini 2.5 Flash, annunciato durante l’evento Cloud Next ’25, è disponibile per gli sviluppatori tramite Google AI Studio e Vertex AI. Si tratta del primo modello con ragionamento ibrido sviluppato dall’azienda di Mountain View. A differenza del più potente Gemini 2.5 Pro è possibile anche disattivare tale capacità per incrementare le prestazioni.
Gemini 2.5 Flash: ragionamento economico
La famiglia Gemini 2.5 è composta da modelli con capacità di ragionamento. Seguono quindi una catena di pensiero prima di rispondere alle richieste degli utenti. Questa capacità comporta però un consumo maggiore di risorse, un incremento dei tempi di risposta e un costo superiore.
La soluzione offerta da Google si chiama Gemini 2.5 Flash. Come per i precedenti modelli, il suffisso Flash indica prestazioni superiori, ma la vera novità è il ragionamento ibrido. Il modello consente agli sviluppatori di impostare un “thinking budget” per trovare il giusto compromesso tra costo, qualità e latenza. È necessario specificare il numero massimo di token da utilizzare tra 0 e 24.576 (con 0 viene disattivata la capacità di ragionamento).
Gemini 2.5 Flash modifica automaticamente il livello di ragionamento in base alla complessità del prompt. Per compiti più complessi, come la risoluzione di problemi matematici, deve essere impostato un thinking budget più alto. Il costo dell’input è fisso: 0,15 dollari per un milione di token. Cambia invece il costo dell’output: 0,60 dollari senza capacità di ragionamento e 3,50 dollari con capacità di ragionamento.
In quasi tutti i benchmark di riferimento, Gemini 2.5 Flash supera i diretti concorrenti (o4-mini, Claude Sonnet 3.7, Grok 3 e DeepSeek R1). Gli sviluppatori possono accedere al modello tramite Google AI Studio e Vertex AI. Gli utenti (anche quelli senza abbonamento) possono scegliere Gemini 2.5 Flash dal menu a discesa (in alto a sinistra) nell’app Gemini.