Qwen2-VL di Alibaba batte i record nei benchmark AI

Qwen2-VL di Alibaba batte i record nei benchmark AI

Qwen2-VL, il nuovo modello AI di Alibaba basato su Qwen-2, ottiene punteggi da record in vari benchmark di intelligenza artificiale.
Qwen2-VL di Alibaba batte i record nei benchmark AI
Qwen2-VL, il nuovo modello AI di Alibaba basato su Qwen-2, ottiene punteggi da record in vari benchmark di intelligenza artificiale.

Alibaba ha annunciato il rilascio della famiglia Qwen2-VL, una serie di modelli linguistici di visione basati su Qwen-2. La famiglia comprende tre modelli: Qwen2-VL-72B, Qwen2-VL-2B e Qwen2-VL-7B. I modelli Qwen2-VL-2B e Qwen2-VL-7B sono stati rilasciati sotto la licenza Apache 2.0, mentre il modello più potente, Qwen2-VL-72B, è accessibile tramite l’API ufficiale di Alibaba.

Prestazioni all’avanguardia nei benchmark di comprensione visiva

Secondo Alibaba, Qwen2-VL-72B raggiunge prestazioni all’avanguardia in diversi benchmark di comprensione visiva, tra cui MathVista, DocVQA, RealWorldQA e MTVQA. Il modello supera GPT-4o di OpenAI e Claude 3.5 Sonnet di Anthropic nella maggior parte dei benchmark, raggiungendo lo stato dell’arte in molti altri.

È la prima volta che un modello open-source ottiene risultati così impressionanti, superando persino quelli dei modelli closed-source. Qwen2-VL è in grado di comprendere video di oltre 20 minuti e di fornire risposte di alta qualità a domande basate su video, grazie alla sua capacità di supportare ragionamenti e processi decisionali complessi.

Supporto multilingue e integrazione con framework di terze parti

Oltre all’inglese e al cinese, Qwen2-VL supporta ora la maggior parte delle lingue europee, il giapponese, il coreano, l’arabo e il vietnamita, rendendolo adatto a scenari multilingue. Il modello più piccolo, Qwen2-VL-7B, supera GPT-4o mini nella maggior parte dei benchmark e supporta input di immagini, multi-immagini e video, comportandosi particolarmente bene in compiti di comprensione di documenti come DocVQA e MTVQA.

Il modello Qwen2-VL-2B, destinato all’impiego su smartphone, offre prestazioni elevate nella comprensione di immagini, video e multilingua. I modelli open-source Qwen2-VL-7B e Qwen2-VL-2B sono integrati con Hugging Face Transformers, vLLM e altri framework di terze parti.

Il team di Qwen punta in alto per il futuro

Il team di Qwen ha dichiarato di essere ansioso di conoscere il feedback degli utenti e le applicazioni innovative che verranno costruite con Qwen2-VL. In futuro, l’azienda mira a costruire modelli linguistici di visione ancora più potenti, integrando più modalità verso un modello omnidirezionale.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
30 ago 2024
Link copiato negli appunti