Prometheus è il modello sviluppato da Microsoft per Bing Chat e derivato da quello di ChatGPT. L’azienda di Redmond ha ora annunciato Kosmos-1, un modello IA multimodale che può analizzare diversi contenuti, non solo testo. Il codice sorgente verrà pubblicato su GitHub.
Kosmos-1 risolve i puzzle e supera i test IQ
ChatGPT è sicuramente l’esempio più noto di LLM (Large Language Model). Il chatbot può rispondere a domande su diversi argomenti attraverso una conversazione testuale. Kosmos-1 è invece un MLLM (Multimodal Large Language Model). Ciò significa che non solo risponde ad input testuali, ma anche ad input visuali, come le immagini. Nel documento dal titolo “Language Is Not All You Need: Aligning Perception with Language Models” ci sono alcuni esempi.
L’intelligenza artificiale può riconoscere il contenuto dell’immagine, leggere il testo nell’immagine e scrivere una didascalia. Può inoltre avviare una conversazione a partire da un’immagine.
Dopo aver individuato la finestra di spegnimento di Windows 10 nella terza immagine, Kosmos-1 indica correttamente il pulsante da premere per riavviare il computer. Il modello IA ha inoltre superato il test delle matrici progressive di Raven, usato per misurare l’intelligenza umana.
Kosmos-1 potrebbe rappresentare il prossimo step evolutivo dell’intelligenza artificiale. I ricercatori di Microsoft aggiungeranno altre funzionalità (ad esempio, il riconoscimento audio e video) e aumenteranno la dimensione del modello. Per il suo “addestramento” sono stati usati dati dal web, The Pile e Common Crawl.