Meta ha appena annunciato al SIGGRAPH il Segment Anything Model 2 (SAM 2). Questo nuovo modello si basa sul successo del suo predecessore, unificando le capacità di segmentazione di immagini e video in un unico, potente sistema.
SAM 2: l’AI per isolare oggetti all’interno di foto e video in real-time
SAM 2 rappresenta un importante passo avanti nel settore, in quanto offre la possibilità di isolare oggetti in tempo reale, tramite prompt, sia all’interno di immagini statiche che nei contenuti video dinamici. L’architettura del modello impiega un innovativo design della memoria di streaming, che consente di elaborare i fotogrammi video in modo sequenziale. Questo approccio rende SAM 2 particolarmente adatto alle applicazioni in tempo reale, aprendo nuove possibilità in diversi settori.
Nei test di benchmark, SAM 2 ha dimostrato prestazioni superiori, superando gli approcci precedenti sia in termini di precisione che di velocità. Ma la cosa più impressionante è che il modello mostra una notevole versatilità, poiché è in grado di segmentare praticamente qualsiasi oggetto presente all’interno di immagini o video. Questa flessibilità elimina la necessità di un adattamento personalizzato a domini visivi specifici, rendendo SAM 2 uno strumento veramente generico.
Meta rilascia dataset SA-V per accelerare la ricerca sulla segmentazione
Fedele all’impegno di Meta nei confronti dell’AI open source, SAM 2 viene rilasciato con licenza Apache 2.0. Questa decisione consente agli sviluppatori e ai ricercatori di tutto il mondo di sviluppare e integrare liberamente la tecnologia nei propri progetti, accelerando potenzialmente l’innovazione nel settore.
Oltre al modello stesso, Meta presenta SA-V, un nuovo e sostanziale set di dati progettato per superare i limiti della ricerca sulla segmentazione video. SA-V comprende circa 51.000 video del mondo reale e oltre 600.000 maschere spazio-temporali, fornendo una ricca risorsa per l’addestramento e la valutazione dei futuri modelli di segmentazione.
Le implicazioni di SAM 2 sono di vasta portata. Nell’editing video, ad esempio, la capacità del modello di segmentare gli oggetti in intere clip con un input minimo da parte dell’utente potrebbe semplificare notevolmente il flusso di lavoro. Allo stesso modo, campi come i veicoli autonomi, la robotica e la ricerca scientifica potranno beneficiare delle potenti capacità analitiche di SAM 2.
I limiti di SAM 2
Nonostante i notevoli progressi, Meta riconosce che SAM 2 presenta ancora alcune criticità da affrontare. In scene con drastici cambi di inquadratura della telecamera, occlusioni prolungate o molti oggetti in movimento, il modello può avere difficoltà nel tracciamento preciso degli oggetti.
Anche la segmentazione di oggetti con dettagli molto fini e in rapido movimento è impegnativa. Inoltre, sebbene SAM 2 possa tracciare più oggetti simultaneamente, li elabora separatamente e questo limita l’efficienza in scene complesse.
Per superare queste sfide, Meta suggerisce che l’integrazione di una modellazione del movimento più esplicita potrebbe migliorare le prestazioni. Sono problemi tipici nell’ambito della computer vision che gli ingegneri di Meta cercheranno di risolvere nelle prossime versioni del modello.
Ciononostante, SAM 2 rappresenta una grande opportunità per il campo della computer vision. Una volta che i ricercatori e gli sviluppatori ci avranno messo le mani, probabilmente assisteremo a una nuova ondata di sistemi più intelligenti in grado di comprendere meglio e interagire con le informazioni visive in modi sempre più sofisticati.
Meta ha rilasciato il modello, il set di dati, una demo basata sul web e il documento di ricerca.