Nuovi modelli AI di Meta per audio, testo e watermarking

Il team di ricerca Fundamental AI Research (FAIR) di Meta ha appena annunciato il rilascio di una serie di nuovi modelli e strumenti di intelligenza artificiale rivolti ai ricercatori. Questi modelli si concentrano sulla generazione di audio, sull’elaborazione testuale e sul watermarking.

Today is a good day for open science.

As part of our continued commitment to the growth and development of an open ecosystem, today at Meta FAIR we’re announcing four new publicly available AI models and additional research artifacts to inspire innovation in the community and… pic.twitter.com/8PVczc0tNV

— AI at Meta (@AIatMeta) June 18, 2024

JASCO per la generazione audio

Meta ha presentato il suo nuovo modello AI JASCO (acronimo di Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation). JASCO è in grado di utilizzare diversi input audio, come accordi o ritmi, per migliorare la qualità del suono prodotto dall’AI. Secondo i ricercatori FAIR, questo strumento permette agli utenti di personalizzare le caratteristiche dei suoni generati, come accordi, percussioni e melodie, semplicemente attraverso il testo.

AudioSeal per proteggere l’audio generato dall’AI

Meta ha introdotto anche AudioSeal, uno strumento che aggiunge filigrane al parlato generato dall’AI. Questo strumento permette di identificare facilmente i contenuti prodotti dall’intelligenza artificiale. Meta afferma che AudioSeal è la prima tecnica di watermarking audio progettata specificamente per il rilevamento localizzato del parlato generato dall’AI.

Ciò consente di individuare i segmenti generati dall’AI all’interno di un frammento audio più lungo, rendendo il processo di rilevamento più rapido ed efficiente. A differenza di altri modelli, AudioSeal sarà disponibile con una licenza commerciale.

Chameleon: i modelli multimodali per la generazione di testo

FAIR renderà pubblicamente disponibili due dimensioni del suo modello di testo multimodale, Chameleon, con una licenza dedicata alla ricerca. Chameleon 7B e 34B permettono agli utenti di indirizzare i modelli verso compiti che richiedono la comprensione sia visiva che testuale, come la didascalia delle immagini. Tuttavia, al momento Meta non rilascerà il modello di generazione di immagini di Chameleon, concentrandosi solo sui modelli legati al testo.

Approccio di predizione multi-token per la ricerca

Meta offrirà ai ricercatori accesso al loro approccio di predizione multi-token. Questo significa che i modelli linguistici saranno addestrati a prevedere più parole future contemporaneamente, invece di analizzarle una alla volta. Questa tecnica innovativa consente di ottenere risultati più accurati e coerenti nella generazione di testo.

Meta si impegna a condividere pubblicamente questi lavori di ricerca per stimolare ulteriori iterazioni e contribuire al progresso responsabile dell’AI.

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech