Il modello OpenAI o1 pensa in cinese, mistero sul perché

Poco dopo che OpenAI ha rilasciato o1, il suo primo modello di AI “che ragiona“, la gente ha iniziato a notare uno strano fenomeno. A volte il modello inizia a “pensare” in cinese, persiano o qualche altra lingua, anche quando gli viene posta una domanda in inglese.

Perché o1 di OpenAI pensa in cinese? Un processo di pensiero che fa il giro del mondo…

Quando gli si pone un problema da risolvere, OpenAI o1 inizia il suo ragionamento, arrivando alla soluzione attraverso una serie di passaggi logici. Fin qui, nulla di strano. Ma c’è un dettaglio che non quadra: se la domanda è in inglese, anche la risposta finale sarà in inglese… ma nel frattempo, o1 sembra fare un giro turistico tra gli idiomi di mezzo mondo!

Gli utenti di Reddit e X hanno notato questa stranezza e si sono chiesti: ma perché o1 si mette a ragionare in cinese senza alcun motivo apparente? OpenAI, dal canto suo, non ha fornito spiegazioni. Tocca quindi agli esperti di AI tirare a indovinare.

Why did o1 pro randomly start thinking in Chinese? No part of the conversation (5+ messages) was in Chinese… very interesting… training data influence pic.twitter.com/yZWCzoaiit

— Rishab Jain (@RishabJainK) January 9, 2025

Openai o1 pensa in cinese per colpa dell’addestramento?

C’è chi punta il dito contro i dataset usati per addestrare OpenAI o1, pieni zeppi di caratteri cinesi. Altri parlano di servizi di etichettatura dati gestiti da aziende del Dragone. Insomma, l’influenza linguistica della Cina si farebbe sentire anche nei ragionamenti dell’AI.

Ma non tutti concordano con questa teoria. In fondo, o1 passa con disinvoltura dal cinese all’hindi, dal thai al farsi. Forse, dicono alcuni, il modello usa semplicemente la lingua che trova più efficiente per raggiungere il suo scopo. O forse è solo in preda alle allucinazioni.

Token, non parole: ecco cosa “vede” l’AI

Già, perché per OpenAI o1 non esistono lingue diverse: è tutto un grande minestrone di testo. L’AI non ragiona in termini di parole, ma di “token“: sillabe, lettere, pezzi di parole. E come le etichette, anche i token possono portare a distorsioni e pregiudizi.

C’è pure chi ipotizza che o1 impari dalle sfumature linguistiche a cui è esposto. Un po’ come facciamo noi umani, che magari preferiamo fare i calcoli in una lingua e parlare di certe cose in un’altra. Sarà questo il segreto dei ragionamenti poliglotti dell’AI?

Il mistero rimane (per ora)

Purtroppo, senza una parola ufficiale da parte di OpenAI, brancoliamo nel buio. La natura “opaca” di questi modelli rende difficile capire cosa succede dietro le quinte.

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech