Nuovi modelli AI di Meta per audio, testo e watermarking

Nuovi modelli AI di Meta per audio, testo e watermarking

Il team Fundamental AI Research di Meta presenta dei nuovi modelli AI per la generazione di audio, testo e la protezione dei contenuti digitali.
Nuovi modelli AI di Meta per audio, testo e watermarking
Il team Fundamental AI Research di Meta presenta dei nuovi modelli AI per la generazione di audio, testo e la protezione dei contenuti digitali.

Il team di ricerca Fundamental AI Research (FAIR) di Meta ha appena annunciato il rilascio di una serie di nuovi modelli e strumenti di intelligenza artificiale rivolti ai ricercatori. Questi modelli si concentrano sulla generazione di audio, sull’elaborazione testuale e sul watermarking.

JASCO per la generazione audio

Meta ha presentato il suo nuovo modello AI JASCO (acronimo di Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation). JASCO è in grado di utilizzare diversi input audio, come accordi o ritmi, per migliorare la qualità del suono prodotto dall’AI. Secondo i ricercatori FAIR, questo strumento permette agli utenti di personalizzare le caratteristiche dei suoni generati, come accordi, percussioni e melodie, semplicemente attraverso il testo.

AudioSeal per proteggere l’audio generato dall’AI

Meta ha introdotto anche AudioSeal, uno strumento che aggiunge filigrane al parlato generato dall’AI. Questo strumento permette di identificare facilmente i contenuti prodotti dall’intelligenza artificiale. Meta afferma che AudioSeal è la prima tecnica di watermarking audio progettata specificamente per il rilevamento localizzato del parlato generato dall’AI.

Ciò consente di individuare i segmenti generati dall’AI all’interno di un frammento audio più lungo, rendendo il processo di rilevamento più rapido ed efficiente. A differenza di altri modelli, AudioSeal sarà disponibile con una licenza commerciale.

Chameleon: i modelli multimodali per la generazione di testo

FAIR renderà pubblicamente disponibili due dimensioni del suo modello di testo multimodale, Chameleon, con una licenza dedicata alla ricerca. Chameleon 7B e 34B permettono agli utenti di indirizzare i modelli verso compiti che richiedono la comprensione sia visiva che testuale, come la didascalia delle immagini. Tuttavia, al momento Meta non rilascerà il modello di generazione di immagini di Chameleon, concentrandosi solo sui modelli legati al testo.

Approccio di predizione multi-token per la ricerca

Meta offrirà ai ricercatori accesso al loro approccio di predizione multi-token. Questo significa che i modelli linguistici saranno addestrati a prevedere più parole future contemporaneamente, invece di analizzarle una alla volta. Questa tecnica innovativa consente di ottenere risultati più accurati e coerenti nella generazione di testo.

Meta si impegna a condividere pubblicamente questi lavori di ricerca per stimolare ulteriori iterazioni e contribuire al progresso responsabile dell’AI.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
19 giu 2024
Link copiato negli appunti