DeepSeek, il modello di linguaggio cinese che ha fatto tremare i politici americani, potrebbe presto liberarsi dalle catene della censura. La startup cinese CTGT afferma di aver trovato un nuovo modo per rimuovere i filtri della censura e i bias integrati direttamente negli LLM.
I bias sono limiti imposti già nella fase di addestramento, spesso per rispettare regole politiche o normative locali. Cosa vuol dire? Che in futuro i modelli AI potranno rispondere anche alle domande più sensibili o controverse.
Il problema della censura nelle AI come DeepSeek
Rimuovere i bias e la censura dai modelli di linguaggio è una sfida ardua. DeepSeek ne è un esempio lampante. Etichettato come “una minaccia profonda alla sicurezza nazionale” da una commissione del Congresso USA, questo LLM ha scatenato un dibattito sulla pericolosità delle AI. Finora, gli approcci per superare questi limiti si sono concentrati sul Reinforcement Learning from Human Feedback (RLHF) e il fine-tuning, ma CTGT promette una soluzione alternativa e più efficace.
Il framework di CTGT, secondo i ricercatori Cyril Gorlla e Trevor Tuttle, “identifica e modifica direttamente le caratteristiche interne responsabili della censura“. Questo approccio non solo è efficiente dal punto di vista computazionale, ma permette anche un controllo granulare sul comportamento del modello, garantendo risposte senza censura senza compromettere le capacità e l’accuratezza dell’AI.
Come funziona il metodo CTGT
Il processo si articola in tre fasi chiave:
- Identificazione delle caratteristiche associate a comportamenti indesiderati;
Isolamento e caratterizzazione di queste caratteristiche;
- Modifica dinamica delle caratteristiche durante l’inferenza.
I ricercatori “provocano” il modello con una serie di prompt potenzialmente controversi, come richieste di informazioni su Piazza Tienanmen o suggerimenti per aggirare i firewall. Analizzando le risposte, individuano i pattern e i vettori che innescano la censura. Una volta isolate queste caratteristiche, possono capire quali comportamenti controllano e integrarle nel processo di inferenza del modello, regolando quanto questi comportamenti si attivano.
Gli esperimenti di CTGT su 100 query controverse hanno mostrato che il modello base di DeepSeek rispondeva solo al 32% dei prompt. Ma la versione modificata ha raggiunto un tasso di risposta del 96%, rifiutandosi di rispondere solo al 4% dei prompt più espliciti. Il metodo permette di regolare quanto i bias e le funzioni di sicurezza integrate influenzano il modello, senza sacrificarne l’accuratezza o le prestazioni.
Un futuro senza bavaglio per le AI?
Il dibattito sulla sicurezza e l’affidabilità delle AI è più acceso che mai. Ma sviluppare metodi che permettano agli utenti di controllare i bias e la censura nei modelli potrebbe rivelarsi cruciale, soprattutto per le aziende che vogliono implementare l’AI senza violare le proprie policy interne. Come sottolinea Gorlla, “le imprese devono poter fidarsi che i loro modelli siano allineati con le loro politiche“. In settori ad alto rischio come sicurezza, finanza e sanità, dove i potenziali danni di un malfunzionamento dell’AI sono enormi, un approccio come quello di CTGT potrebbe fare la differenza.