NExT-GPT può leggere e generare prompt audio e video

Attualmente, il panorama dell’intelligenza artificiale è largamente dominato da OpenAI e da giganti come Google, Microsoft e Meta. Tuttavia, esiste un grande modello linguistico multimodale (LLM) completamente open source che potrebbe avere le carte in regola per giocare in serie A: NExT-GPT.

Sebbene ChatGPT sia stato rivoluzionario nella sua capacità di generare testo in modo simile a quello umano, gli utenti chiedono ora un’intelligenza artificiale sempre più potente… ma soprattutto multimodale.

Experience the Future of AI.

A new MutliMODAL AI system – NExt-GPT

Take a look:

——

Why did I choose the NExtGPT Model?

Because of its unique strategy for truly multimodal interactions.

And it easily integrates numerous modalities for effective and flexible results.… pic.twitter.com/KxgITlGdRn

— Haider. (@slow_developer) September 26, 2023

NExT-GPT, frutto di una collaborazione tra l’Università di Singapore e l’Università Tsinghua, fa proprio questo. Il chatbot AI, infatti, è in grado di elaborare e generare combinazioni di testo, immagini, audio e video.

L’integrazione delle capacità di elaborazione delle immagini rappresenta un passo significativo verso interazioni più naturali e complete rispetto al semplice scambio di testo. OpenAI ha riconosciuto questa tendenza emergente e non a caso sta lavorando per integrare presto il generatore di immagini DALL-E 3 nello strumento, ampliando ulteriormente le sue capacità creative e visive. Questi sviluppi promettenti rappresentano un passo avanti nell’evoluzione delle capacità dell’intelligenza artificiale nel campo delle interazioni umane.

NExT-GPT potrebbe rivoluzionare l’intelligenza artificiale

NExT-GPT è stato progettato come un sistema “any-to-any”. Ciò significa che può accettare input da qualsiasi modalità e fornire risposte nella forma desiderata. Il potenziale di un’intelligenza artificiale di questo tipo è semplicemente incredibile. Inoltre, essendo un modello open-source, può essere modificato dagli utenti per soddisfare le loro esigenze specifiche.

Questo potrebbe portare a progressi enormi, come Stable Diffusion, che ha subito una notevole evoluzione dalla sua versione originale. Forse stiamo assistendo alla nascita del nuovo re dell’intelligenza artificiale?

Come funziona?

Come spiega il documento di ricerca, il sistema NExT-GPT si basa su moduli separati per codificare input come immagini e audio in rappresentazioni testuali che il modello linguistico può elaborare. I ricercatori hanno creato una tecnica chiamata modality-switching instruction tuning per migliorare le capacità di ragionamento cross-modale: trattare diversi tipi di input come un’unica struttura coerente. Questa impostazione insegna al modello ad alternare le modalità durante le conversazioni. Il suo funzionamento è quindi perfettamente fluido.

Per supportare gli input, NExT-GPU utilizza token unici diversi per immagini, audio e video. Ogni tipo di input viene convertito in modo che il modello linguistico possa comprenderlo. Il modello linguistico può quindi produrre risposte sotto forma di testo o di speciali token di segnalazione per attivare la generazione in altre modalità.

Un token nella risposta indica al decodificatore video di produrre un risultato corrispondente sotto forma di video. L’uso di token personalizzati per ogni modalità di ingresso e di uscita consente una conversazione flessibile da un formato all’altro. Il modello linguistico produce poi token speciali per segnalare quando devono essere generati risultati non testuali, come le immagini. Diversi decodificatori creano poi i risultati per ciascuna modalità.

Il decodificatore audio è AudioLDM, il decodificatore di immagini è Stable Diffusion e il decodificatore video è Zeroscope. Inoltre, il modello linguistico di base è Vicuna e ImageBind viene utilizzato per codificare gli input. In breve, NExT-GPT è un modello che combina la potenza di diverse IA per formare un’IA all-in-one superpotente.

La ciliegina sulla torta è che questa flessibilità di conversione è ottenuta utilizzando solo l’1% dei parametri. Il resto sono moduli preaddestrati congelati, e i ricercatori sono unanimi nel lodare questo design altamente efficiente.

Chi vuole provare NExT-GPT, può visitare il sito dimostrativo. Si noti, tuttavia, che è disponibile solo a intermittenza. In attesa che OpenAI, Google, Apple e gli altri GAFAM lancino le loro AI multimodali come GPT-5, NExT-GPT è un’alternativa open-source che offre un assaggio della prossima fase dell’intelligenza artificiale…

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech