Hugging Face ha presentato Idefics2, la nuova versione open source del suo modello multimodale in grado di rispondere a richieste di testo e immagini, originariamente sviluppato da DeepMind. Idefics2 è dotato di parametri più snelli, una licenza aperta e capacità di riconoscimento ottico dei caratteri (OCR) migliorate rispetto alla prima release.
Nonostante le dimensioni ridotte rispetto al suo predecessore – 8 miliardi di parametri contro gli 80 miliardi di Idefics1 – Idefics2 non scende a compromessi in termini di prestazioni. Con una potenza paragonabile a modelli come DeepSeek-VL e LLaVA-NeXT-Mistral-7B, questo modello dimostra che la grandezza non è tutto quando si tratta di intelligenza artificiale.
Immagini ad alta risoluzione e rapporti di aspetto flessibili
Una delle caratteristiche più impressionanti di Idefics2 è la sua capacità di gestire immagini ad alta risoluzione, fino a 980 x 980 pixel, con rapporti di aspetto nativi. Questo rappresenta un significativo passo avanti rispetto ai tradizionali approcci di computer vision, che spesso richiedono il ridimensionamento delle immagini per adattarsi a un rapporto quadrato fisso. Con Idefics2, le immagini possono essere elaborate nella loro forma originale, aprendo nuove possibilità per l’analisi e la modifica.
OCR avanzato e comprensione di grafici e documenti
Oltre alle capacità di elaborazione delle immagini, Idefics2 brilla anche nell’OCR. Grazie all’integrazione dei dati generati dalla trascrizione del testo in immagini e documenti, questo modello è in grado di estrarre informazioni testuali con maggiore precisione e affidabilità.
Ma le sorprese non finiscono qui. Il team di Hugging Face ha anche potenziato la capacità di Idefics2 di comprendere e rispondere a domande su grafici, figure e documenti. Questa abilità apre la strada a nuove applicazioni nell’analisi dei dati e nella gestione dei documenti. Anche l’architettura del modello è stata semplificata.
Addestramento avanzato con dati diversificati
Per sfruttare appieno il potenziale di Idefics2, Hugging Face ha utilizzato una vasta gamma di set di dati per l’addestramento, tra cui Mistral-7B-v0.1, siglip-so400m-patch14-384, documenti web, coppie di didascalie di immagini, dati OCR, testo renderizzato e dati image-to-code. Questa diversità di input consente a Idefics2 di affrontare una vasta gamma di attività e campi.