OpenAI non sarà al lavoro su GPT-5, ma a quanto pare è ancora più che attiva nella realizzazione di modelli generativi di altro genere. Nelle ultime ore in particolare è arrivato SHAP-E, nuovo strumento che consente la generazione di modelli 3D a partire da semplici stringhe di testo. Non aspettatevi miracoli, ma si tratta indubbiamente di un ottimo, primo passo verso un caso d’uso alquanto complesso.
OpenAI svela SHAP-E
Mentre DALL-E si occupa della generazione di immagini bidimensionali a partire da prompt testuali, SHAP-E (ovvero shape, che in inglese significa “forma”) consente la conversione di una parola o di un oggetto accuratamente descritto in un oggetto tridimensionale apribile su Paint 3D e convertibile persino in file STL affinché possa essere usato con le stampanti 3D.
Disponibile gratuitamente su GitHub, opera localmente sul proprio PC e non richiede nemmeno un’API di OpenAI: una volta installato diventa già utilizzabile, a patto che sappiate come impostarla.
L’organizzazione di Sam Altman, infatti, non fornisce alcuna istruzione sul suo utilizzo, e richiede agli utenti di “smanettare” prima di riuscire a provare concretamente SHAP-E. Una volta installato con il comando Python “pip install -e” si deve usare un notebook tra quelli presenti su GitHub, ovvero “text-to-3d” (usa un prompt di testo per generare un modello tridimensionale), “image-to-3d” (trasforma un’immagine 2D in un oggetto 3D) e “encode_model”, che prende un modello 3D esistente e usa Blender (da installare a parte) per trasformarlo in qualcos’altro e ri-renderizzarlo.
I risultati non sono eccellenti, specialmente nel caso dei prompt testuali: con tale strumento vengono generati perlopiù file PLY monocromatici e GIF animate a colori, non propriamente convincenti. Inoltre, SHAP-E sembra richiedere molte risorse di sistema: i colleghi di Tom’s Hardware, ad esempio, con una RTX 3080 e un processore Ryzen 9 5900X ci sono voluti cinque minuti per un piccolo render. Al contrario, con Intel Core i9 di fascia alta e RTX 4090 bastano due o tre minuti. Con chip grafici integrati, infine, serve un’ora circa per renderizzare il 3%.