Qwen2-VL di Alibaba batte i record nei benchmark AI

Alibaba ha annunciato il rilascio della famiglia Qwen2-VL, una serie di modelli linguistici di visione basati su Qwen-2. La famiglia comprende tre modelli: Qwen2-VL-72B, Qwen2-VL-2B e Qwen2-VL-7B. I modelli Qwen2-VL-2B e Qwen2-VL-7B sono stati rilasciati sotto la licenza Apache 2.0, mentre il modello più potente, Qwen2-VL-72B, è accessibile tramite l’API ufficiale di Alibaba.

Prestazioni all’avanguardia nei benchmark di comprensione visiva

Secondo Alibaba, Qwen2-VL-72B raggiunge prestazioni all’avanguardia in diversi benchmark di comprensione visiva, tra cui MathVista, DocVQA, RealWorldQA e MTVQA. Il modello supera GPT-4o di OpenAI e Claude 3.5 Sonnet di Anthropic nella maggior parte dei benchmark, raggiungendo lo stato dell’arte in molti altri.

È la prima volta che un modello open-source ottiene risultati così impressionanti, superando persino quelli dei modelli closed-source. Qwen2-VL è in grado di comprendere video di oltre 20 minuti e di fornire risposte di alta qualità a domande basate su video, grazie alla sua capacità di supportare ragionamenti e processi decisionali complessi.

Supporto multilingue e integrazione con framework di terze parti

Oltre all’inglese e al cinese, Qwen2-VL supporta ora la maggior parte delle lingue europee, il giapponese, il coreano, l’arabo e il vietnamita, rendendolo adatto a scenari multilingue. Il modello più piccolo, Qwen2-VL-7B, supera GPT-4o mini nella maggior parte dei benchmark e supporta input di immagini, multi-immagini e video, comportandosi particolarmente bene in compiti di comprensione di documenti come DocVQA e MTVQA.

Il modello Qwen2-VL-2B, destinato all’impiego su smartphone, offre prestazioni elevate nella comprensione di immagini, video e multilingua. I modelli open-source Qwen2-VL-7B e Qwen2-VL-2B sono integrati con Hugging Face Transformers, vLLM e altri framework di terze parti.

Il team di Qwen punta in alto per il futuro

Il team di Qwen ha dichiarato di essere ansioso di conoscere il feedback degli utenti e le applicazioni innovative che verranno costruite con Qwen2-VL. In futuro, l’azienda mira a costruire modelli linguistici di visione ancora più potenti, integrando più modalità verso un modello omnidirezionale.

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech