Alibaba ha annunciato il rilascio della famiglia Qwen2-VL, una serie di modelli linguistici di visione basati su Qwen-2. La famiglia comprende tre modelli: Qwen2-VL-72B, Qwen2-VL-2B e Qwen2-VL-7B. I modelli Qwen2-VL-2B e Qwen2-VL-7B sono stati rilasciati sotto la licenza Apache 2.0, mentre il modello più potente, Qwen2-VL-72B, è accessibile tramite l’API ufficiale di Alibaba.
Prestazioni all’avanguardia nei benchmark di comprensione visiva
Secondo Alibaba, Qwen2-VL-72B raggiunge prestazioni all’avanguardia in diversi benchmark di comprensione visiva, tra cui MathVista, DocVQA, RealWorldQA e MTVQA. Il modello supera GPT-4o di OpenAI e Claude 3.5 Sonnet di Anthropic nella maggior parte dei benchmark, raggiungendo lo stato dell’arte in molti altri.
È la prima volta che un modello open-source ottiene risultati così impressionanti, superando persino quelli dei modelli closed-source. Qwen2-VL è in grado di comprendere video di oltre 20 minuti e di fornire risposte di alta qualità a domande basate su video, grazie alla sua capacità di supportare ragionamenti e processi decisionali complessi.
Supporto multilingue e integrazione con framework di terze parti
Oltre all’inglese e al cinese, Qwen2-VL supporta ora la maggior parte delle lingue europee, il giapponese, il coreano, l’arabo e il vietnamita, rendendolo adatto a scenari multilingue. Il modello più piccolo, Qwen2-VL-7B, supera GPT-4o mini nella maggior parte dei benchmark e supporta input di immagini, multi-immagini e video, comportandosi particolarmente bene in compiti di comprensione di documenti come DocVQA e MTVQA.
Il modello Qwen2-VL-2B, destinato all’impiego su smartphone, offre prestazioni elevate nella comprensione di immagini, video e multilingua. I modelli open-source Qwen2-VL-7B e Qwen2-VL-2B sono integrati con Hugging Face Transformers, vLLM e altri framework di terze parti.
Il team di Qwen punta in alto per il futuro
Il team di Qwen ha dichiarato di essere ansioso di conoscere il feedback degli utenti e le applicazioni innovative che verranno costruite con Qwen2-VL. In futuro, l’azienda mira a costruire modelli linguistici di visione ancora più potenti, integrando più modalità verso un modello omnidirezionale.