OpenAI lancia GPT-4.1, i modelli AI per il coding

OpenAI lancia GPT-4.1, i modelli AI per il coding

OpenAI ha annunciato i nuovi modelli GPT-4.1, GPT-4.1 mini e GPT-4.1 nano, ottimizzati per il coding e la programmazione.
OpenAI lancia GPT-4.1, i modelli AI per il coding
OpenAI ha annunciato i nuovi modelli GPT-4.1, GPT-4.1 mini e GPT-4.1 nano, ottimizzati per il coding e la programmazione.

OpenAI ha svelato GPT-4.1, un terzetto di modelli AI ottimizzati per il coding. GPT-4.1, GPT-4.1 mini e GPT-4.1 nano: tre nomi, un unico obiettivo. Quello di eccellere nella programmazione e nell’esecuzione di istruzioni. Accessibili via API (ma non su ChatGPT), questi modelli multimodali hanno una finestra di contesto da 1 milione di token. Quindi possono elaborare circa 750.000 parole in unico passaggio, senza perdere il filo del discorso.

Nuovi modelli GPT-4.1 di OpenAI per il coding

GPT-4.1 è un po’ la risposta di OpenAI ai modelli dei rivali, da Google ad Anthropic. Gemini 2.5 Pro di Google, anch’esso con una finestra di contesto da 1 milione di token, spopola nei benchmark di coding. Stessa storia per Claude 3.7 Sonnet di Anthropic e V3 di DeepSeek.

Tutti stanno puntando a un obiettivo ambizioso: realizzare modelli AI in grado di agire come veri e propri Software Engineer. E OpenAI – come ha dichiarato la CFO Sarah Friar durante un summit tech a Londra – punta ancora più in alto, con un agente capace di programmare intere app da cima a fondo, occupandosi di qualità, debug, documentazione e chi più ne ha più ne metta.

GPT-4.1: più veloce ed economico

OpenAI afferma che il modello completo GPT-4.1 surclassa i suoi predecessori GPT-4o e GPT-4o mini nei benchmark di coding, SWE-bench incluso. GPT-4.1 mini e nano sacrificano un po’ di accuratezza in cambio di maggiore efficienza e velocità. Tanto che GPT-4.1 nano viene descritto come il modello più rapido ed economico di sempre.

In una valutazione separata, OpenAI ha messo alla prova GPT-4.1 con Video-MME, un test progettato per misurare la capacità di un modello di “capire” i contenuti dei video. GPT-4.1 ha raggiunto un’accuratezza record del 72% nella categoria “video lunghi senza sottotitoli”.

GPT-4.1 se la cava bene nei benchmark e ha un limite di conoscenza più recente (fino a giugno 2024), che gli dà un quadro di riferimento migliore sugli eventi attuali. Ma occhio a non farsi abbagliare. Anche i modelli top di oggi arrancano di fronte a compiti che per un esperto umano sarebbero una passeggiata. Molti studi hanno dimostrato come i generatori di codice spesso falliscano nel correggere (o addirittura introducano) vulnerabilità e bug.

OpenAI stessa ammette che GPT-4.1 diventa meno affidabile più token di input deve gestire. In uno dei test interni, OpenAI-MRCR, l’accuratezza del modello è scesa dall’84% con 8.000 token al 50% con 1 milione di token. GPT-4.1 tende anche a essere più “letterale” di GPT-4o, il che a volte richiede prompt più specifici ed espliciti.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
15 apr 2025
Link copiato negli appunti