Secondo Elon Musk abbiamo già esaurito tutti i dati del mondo reale per addestrare i modelli di intelligenza artificiale.
Durante una chiacchierata in live streaming su X con Mark Penn, presidente di Stagwell, Musk ha sentenziato: “Abbiamo sfruttato praticamente tutto il patrimonio cumulativo della conoscenza umana per alimentare i sistemi AI“. E quando sarebbe successo questo? “Fondamentalmente l’anno scorso“, ha precisato il magnate della Tesla.
Elon Musk: “Addestramento AI, abbiamo esaurito i dati reali”
Musk non è il solo a pensarla così. Anche Ilya Sutskever ha parlato di “picco dei dati“. Durante un discorso al NeurIPS a dicembre l’ex capo scienziato di OpenAI e ha previsto che la mancanza di dati di addestramento costringerà a un cambio di rotta nel modo in cui sviluppiamo i modelli AI.
E qual è la soluzione, secondo Musk? I dati sintetici, ovvero i dati generati dagli stessi modelli AI. “L’unico modo per integrare [i dati del mondo reale] è con i dati sintetici, dove l’AI crea [i dati di addestramento]“, ha detto. “Con i dati sintetici… [l’AI] si auto-valuterà e passerà attraverso questo processo di auto-apprendimento“.
Le aziende AI usano i dati sintetici per l’addestramento dei modelli
Musk non sta dicendo nulla di nuovo. Colossi come Microsoft, Meta, OpenAI e Anthropic stanno già usando dati sintetici per addestrare i loro modelli di punta. Gartner stima che nel 2024 il 60% dei dati usati per progetti di AI e analisi saranno generati sinteticamente.
Phi-4 di Microsoft, presentato il mese scorso, è stato addestrato sia su dati sintetici che su dati del mondo reale. Lo stesso vale per i modelli Gemma di Google. Anthropic ha usato alcuni dati sintetici per sviluppare uno dei suoi sistemi più performanti, Claude 3.5 Sonnet. E Meta ha affinato la sua serie di modelli Llama più recenti usando dati generati dall’AI.
Pro e contro dei dati sintetici
Addestrare l’AI su dati sintetici ha i suoi pro, come il risparmio sui costi. Ma ci sono anche degli svantaggi. Alcune ricerche suggeriscono che i dati sintetici possono portare al collasso del modello, rendendolo meno “creativo” e più distorto nei suoi output, fino a comprometterne seriamente la funzionalità. Dato che i modelli creano i dati sintetici, se i dati usati per addestrarli hanno bias e limiti, anche i loro output saranno contaminati allo stesso modo.