Il team di ricerca Fundamental AI Research (FAIR) di Meta ha appena annunciato il rilascio di una serie di nuovi modelli e strumenti di intelligenza artificiale rivolti ai ricercatori. Questi modelli si concentrano sulla generazione di audio, sull’elaborazione testuale e sul watermarking.
Today is a good day for open science.
As part of our continued commitment to the growth and development of an open ecosystem, today at Meta FAIR we’re announcing four new publicly available AI models and additional research artifacts to inspire innovation in the community and… pic.twitter.com/8PVczc0tNV
— AI at Meta (@AIatMeta) June 18, 2024
JASCO per la generazione audio
Meta ha presentato il suo nuovo modello AI JASCO (acronimo di Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation). JASCO è in grado di utilizzare diversi input audio, come accordi o ritmi, per migliorare la qualità del suono prodotto dall’AI. Secondo i ricercatori FAIR, questo strumento permette agli utenti di personalizzare le caratteristiche dei suoni generati, come accordi, percussioni e melodie, semplicemente attraverso il testo.
AudioSeal per proteggere l’audio generato dall’AI
Meta ha introdotto anche AudioSeal, uno strumento che aggiunge filigrane al parlato generato dall’AI. Questo strumento permette di identificare facilmente i contenuti prodotti dall’intelligenza artificiale. Meta afferma che AudioSeal è la prima tecnica di watermarking audio progettata specificamente per il rilevamento localizzato del parlato generato dall’AI.
Ciò consente di individuare i segmenti generati dall’AI all’interno di un frammento audio più lungo, rendendo il processo di rilevamento più rapido ed efficiente. A differenza di altri modelli, AudioSeal sarà disponibile con una licenza commerciale.
Chameleon: i modelli multimodali per la generazione di testo
FAIR renderà pubblicamente disponibili due dimensioni del suo modello di testo multimodale, Chameleon, con una licenza dedicata alla ricerca. Chameleon 7B e 34B permettono agli utenti di indirizzare i modelli verso compiti che richiedono la comprensione sia visiva che testuale, come la didascalia delle immagini. Tuttavia, al momento Meta non rilascerà il modello di generazione di immagini di Chameleon, concentrandosi solo sui modelli legati al testo.
Approccio di predizione multi-token per la ricerca
Meta offrirà ai ricercatori accesso al loro approccio di predizione multi-token. Questo significa che i modelli linguistici saranno addestrati a prevedere più parole future contemporaneamente, invece di analizzarle una alla volta. Questa tecnica innovativa consente di ottenere risultati più accurati e coerenti nella generazione di testo.
Meta si impegna a condividere pubblicamente questi lavori di ricerca per stimolare ulteriori iterazioni e contribuire al progresso responsabile dell’AI.