Ormai ogni settimana spunta un nuovo generatore di video AI. L’ultimo arrivato, sviluppato dal colosso cinese Tencent, merita davvero attenzione. Si chiama Hunyuan e promette una qualità video e animazioni incredibili. Inoltre, è completamente open source, il che non guasta mai.
Generatore di video AI Hunyuan, come funziona
Hunyuan è un generatore di video AI con ben 13 miliardi di parametri. In parole povere, è in grado di trasformare un semplice prompt testuale in un video ad alta risoluzione di 5 secondi. Per ora non ci sono molti siti dove provarlo al di fuori della Cina, ma essendo open-source la situazione cambierà presto. FAL.ai ha già creato una versione su cui mettere le mani.
Il video dimostrativo è impressionante: sequenze brevi che mostrano movimenti naturali e fluidi di persone e animali in uno stile fotorealistico, insieme a spezzoni con diversi stili di animazione. La qualità dell’output è paragonabile a Runway Gen-3 e Dream Machine di Luma Labs, ma l’aderenza al prompt non è altrettanto buona.
Hunyuan funziona come qualsiasi altro modello di video AI: gli si dà in pasto una descrizione o un’immagine e lui restituisce un video basato sul proprio input. È possibile scaricarlo, ma la versione attuale richiede almeno 60GB di memoria GPU. Quindi bisogna avere a disposizione una Nvidia H800/H20 o superiore. Essendo open-source, la community potrà probabilmente ottimizzarlo per ridurre i requisiti, in modo da farlo girare su schede più abbordabili come una RTX4090.
Tencent afferma che durante i test ha ottenuto un’alta qualità visiva, una grande varietà di movimenti e una buona stabilità nella generazione. L’essere open-source gli dà un vantaggio: l’intera comunità potrà aggiungere funzionalità e migliorare il modello. Tencent stessa ha detto nella documentazione che “questo permetterà a tutti di sperimentare le proprie idee, favorendo un ecosistema di generazione video più dinamico e vivace“.
Quanto è bravo Hunyuan?
La redazione di Tom’s Guide ha fatto qualche prova su FAL.ai e ha notato che l’aderenza al prompt e la comprensione della fisica non sono così buone come promesso nella documentazione, né come quelle di Runway, Kling o Hailuo. Tuttavia è un modello nuovo e promettente, con un enorme potenziale di crescita grazie alla sua natura open source.