NExT-GPT può leggere e generare prompt audio e video

NExT-GPT può leggere e generare prompt audio e video

NExT-GPT è un'intelligenza artificiale generativa come ChatGPT, con la capacità di generare non solo testo e immagini, ma anche audio e video.
NExT-GPT può leggere e generare prompt audio e video
NExT-GPT è un'intelligenza artificiale generativa come ChatGPT, con la capacità di generare non solo testo e immagini, ma anche audio e video.

Attualmente, il panorama dell’intelligenza artificiale è largamente dominato da OpenAI e da giganti come Google, Microsoft e Meta. Tuttavia, esiste un grande modello linguistico multimodale (LLM) completamente open source che potrebbe avere le carte in regola per giocare in serie A: NExT-GPT.

Sebbene ChatGPT sia stato rivoluzionario nella sua capacità di generare testo in modo simile a quello umano, gli utenti chiedono ora un’intelligenza artificiale sempre più potente… ma soprattutto multimodale.

NExT-GPT, frutto di una collaborazione tra l’Università di Singapore e l’Università Tsinghua, fa proprio questo. Il chatbot AI, infatti, è in grado di elaborare e generare combinazioni di testo, immagini, audio e video.

L’integrazione delle capacità di elaborazione delle immagini rappresenta un passo significativo verso interazioni più naturali e complete rispetto al semplice scambio di testo. OpenAI ha riconosciuto questa tendenza emergente e non a caso sta lavorando per integrare presto il generatore di immagini DALL-E 3 nello strumento, ampliando ulteriormente le sue capacità creative e visive. Questi sviluppi promettenti rappresentano un passo avanti nell’evoluzione delle capacità dell’intelligenza artificiale nel campo delle interazioni umane.

NExT-GPT potrebbe rivoluzionare l’intelligenza artificiale

NExT-GPT è stato progettato come un sistema “any-to-any”. Ciò significa che può accettare input da qualsiasi modalità e fornire risposte nella forma desiderata. Il potenziale di un’intelligenza artificiale di questo tipo è semplicemente incredibile. Inoltre, essendo un modello open-source, può essere modificato dagli utenti per soddisfare le loro esigenze specifiche.

Questo potrebbe portare a progressi enormi, come Stable Diffusion, che ha subito una notevole evoluzione dalla sua versione originale. Forse stiamo assistendo alla nascita del nuovo re dell’intelligenza artificiale?

Come funziona?

Come spiega il documento di ricerca, il sistema NExT-GPT si basa su moduli separati per codificare input come immagini e audio in rappresentazioni testuali che il modello linguistico può elaborare. I ricercatori hanno creato una tecnica chiamata modality-switching instruction tuning per migliorare le capacità di ragionamento cross-modale: trattare diversi tipi di input come un’unica struttura coerente. Questa impostazione insegna al modello ad alternare le modalità durante le conversazioni. Il suo funzionamento è quindi perfettamente fluido.

Per supportare gli input, NExT-GPU utilizza token unici diversi per immagini, audio e video. Ogni tipo di input viene convertito in modo che il modello linguistico possa comprenderlo. Il modello linguistico può quindi produrre risposte sotto forma di testo o di speciali token di segnalazione per attivare la generazione in altre modalità.

Un token nella risposta indica al decodificatore video di produrre un risultato corrispondente sotto forma di video. L’uso di token personalizzati per ogni modalità di ingresso e di uscita consente una conversazione flessibile da un formato all’altro. Il modello linguistico produce poi token speciali per segnalare quando devono essere generati risultati non testuali, come le immagini. Diversi decodificatori creano poi i risultati per ciascuna modalità.

Il decodificatore audio è AudioLDM, il decodificatore di immagini è Stable Diffusion e il decodificatore video è Zeroscope. Inoltre, il modello linguistico di base è Vicuna e ImageBind viene utilizzato per codificare gli input. In breve, NExT-GPT è un modello che combina la potenza di diverse IA per formare un’IA all-in-one superpotente.

La ciliegina sulla torta è che questa flessibilità di conversione è ottenuta utilizzando solo l’1% dei parametri. Il resto sono moduli preaddestrati congelati, e i ricercatori sono unanimi nel lodare questo design altamente efficiente.

Chi vuole provare NExT-GPT, può visitare il sito dimostrativo. Si noti, tuttavia, che è disponibile solo a intermittenza. In attesa che OpenAI, Google, Apple e gli altri GAFAM lancino le loro AI multimodali come GPT-5, NExT-GPT è un’alternativa open-source che offre un assaggio della prossima fase dell’intelligenza artificiale…

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
28 set 2023
Link copiato negli appunti