Con il passaggio al modello di linguaggio GPT-4 il pubblico si aspettava di potere sfruttare le capacità multimodali su ChatGPT e lavorare con le immagini sin da subito ma, sfortunatamente, ciò non è ancora possibile a causa di continui rinvii della feature per questioni correlate alla privacy degli utenti. In compenso, il team di OpenAI ha gradualmente inserito plug-in avanzati nel suo chatbot, come il più recente Code Interpreter per lavorare con Python e ottenere output avanzati sempre corretti, specialmente per funzioni matematiche e grafici.
Esistono tuttavia anche soluzioni non integrate direttamente su ChatGPT che, sorprendentemente, funzionano e permettono di generare immagini mediante la sua interfaccia. Di seguito vi spiegheremo come generare immagini su ChatGPT, sfruttando l’IA generativa anche nella sua versione gratuita. Ebbene sì, non serve nemmeno pagare per accedere al piano Pro e agli strumenti avanzati!
ChatGPT può generare immagini?
Prima di procedere con l’analisi di questo servizio di terze parti che può operare all’interno di ChatGPT, rispondiamo a un semplice quesito: OpenAI ha introdotto la generazione di immagini sul chatbot? No, in quanto esiste già una soluzione alternativa della stessa organizzazione chiamata DALL-E. Ormai giunto alla sua seconda iterazione, questo sistema di IA generativa crea immagini realistiche, originali o con altre caratteristiche a partire da una semplice descrizione, ma al di fuori di ChatGPT.
Come avviene nel caso di altri generatori di immagini come Midjourney, Stable Diffusion, l’utente deve semplicemente inserire il prompt nella casella di testo sul sito ufficiale di DALL-E e attendere che l’IA proceda con la creazione della composizione artistica. Dopodiché, DALL-E 2 permette anche di espanderla tramite outpainting o modificarla nel modo più naturale possibile tramite inpainting. O ancora, può creare delle variazioni della immagine originale con la pressione di pochi pulsanti.
In definitiva, ChatGPT resta un modello di linguaggio e non una IA generativa all-inclusive; ergo, si limita alla generazione di testi fantasiosi, tecnici o comunque opere scritte, non quadri.
Come genera immagini?
Il quesito che segue immediatamente, allora, è il seguente: come fa ChatGPT a generare immagini, se non dispone di funzionalità ad hoc e non ha integrato DALL-E? Si affida a una soluzione di terze parti accessibile previa scrittura di un prompt specifico, che inganna il chatbot e lo trasforma in ciò che normalmente non è. L’input che l’utente deve usare è il seguente: “Prompt: You are an image prompt generator. First, ask me for a description of an image, and help me fill in the following. Then, output the completed prompt. ![Image] (https://image.pollinations.ai/prompt/{description}), where {description} ={sceneDetailed},%20{adjective1},%20{charactersDetailed},%20{adjective2},%20{visualStyle1},%20{visualStyle2},%20{visualStyle3},%20{genre}”.
Utilizzato il prompt, si otterrà un output come quello soprastante. Come si può leggere, ChatGPT richiede di consegnarli una descrizione dell’immagine che si desidera creare. Dunque, bisogna specificare dettagli sulla scena, i personaggi, aggettivi che la descrivono, stili visivi e genere (come fantasy e sci-fi). Dopo aver fornito le informazioni necessarie, il bot genererà il prompt completo con il collegamento all’immagine.
Nel nostro caso specifico abbiamo pensato di generare una foresta con la luce del sole che passa tra gli alberi, fornendo come aggettivi “rilassante”, “fotorealistico” e il genere “fantasy”. Il risultato? Come ci si aspettava, “una foresta serena, con la luce che filtra attraverso il lussureggiante fogliame verde, creando un’atmosfera rilassante e accogliente. La scena può essere popolata da creature mistiche, esseri magici o personaggi di vari regni fantastici, che si aggiungono alla natura incantevole dell’immagine”. Questa è la descrizione integrale fornita direttamente da ChatGPT, come potete vedere dallo screenshot sottostante.
Vantaggi e svantaggi
Questo modo di generare immagini giunge con i suoi vantaggi e svantaggi. Sicuramente molti utenti apprezzeranno la possibilità di usare una IA generativa di immagini direttamente su ChatGPT, evitando di scaricare altre applicazioni o di dover pagare per soluzioni aggiuntive. Insomma, se l’obiettivo è quello di centralizzare l’esperienza con l’intelligenza artificiale, questo espediente tecnico farà al caso vostro. Basta memorizzare il prompt da utilizzare su un blocco note su smartphone o PC e il gioco è fatto!
Peccato, però, che per utilizzare questo trucco è necessario interagire con ChatGPT in inglese, il che potrebbe mettere in difficoltà molti utenti del Belpaese. Inoltre, le immagini generate spesso non raggiungono la stessa qualità visibile nei casi di DALL-E, Bing Image Creator o dei più blasonati Stable Diffusion e Midjourney. Come se non bastasse, il watermark del servizio al quale ci si appoggia occupa una parte considerevole dell’immagine, senza impedire di notare tutti i dettagli ma potenzialmente scostando l’attenzione, impedendo il riutilizzo sui social con un aspetto più pulito.
Perciò, per quanto utile, è consigliabile affidarsi a soluzioni alternative. Bing Image Creator è gratuito, accessibile da smartphone e PC tramite browser Web, ed efficace nella realizzazione di più composizioni anche con un singolo prompt, lasciando all’utente la libertà di scegliere l’immagine desiderata. O ancora, Stable Diffusion è gratuito, open source e accessibile scaricando la build sul proprio computer o cercando servizi online che permettono di accedervi a costo zero, o pagando quote irrisorie per ottenere risultati sensazionali senza watermark.
Velocità di esecuzione, precisione e pulizia. Queste sono le doti del nuovo Spazzolino Elettrico Ricaricabile Oral-B. Acquistalo su Amazon e ricevi un Alexa Echo Pop in regalo!