OpenAI ha sviluppato Rule-Based Rewards (RBR), un nuovo approccio per migliorare la sicurezza e l’efficacia dei modelli linguistici. Questo metodo mira ad allineare il comportamento dell’intelligenza artificiale agli standard di sicurezza desiderati, utilizzando l’AI stessa senza la necessità di un’ampia raccolta di dati umani.
L’annuncio di OpenAI arriva dopo la riassegnazione di Aleksander Madry, uno dei suoi dirigenti chiave per la sicurezza dell’AI. Questa mossa ha sollevato domande sulle priorità dell’azienda guidata da Sam Altman in materia di sicurezza, dato il ruolo rilevante ricoperto da Madry. L’azienda ha risposto che Madry si dedicherà ora a un progetto focalizzato sul miglioramento del ragionamento dei modelli di AI.
Differenza tra RLHF e RBR
Tradizionalmente, l’apprendimento per rinforzo dal feedback umano (RLHF) è stato il metodo più utilizzato per garantire che i modelli linguistici seguissero le istruzioni e aderissero alle linee guida di sicurezza. Tuttavia, la ricerca di OpenAI introduce le RBR come alternativa più efficiente e flessibile. Le Rule-Based Rewards utilizzano una serie di regole chiare e graduali per valutare e guidare le risposte del modello, assicurando il rispetto degli standard di sicurezza.
Le RBR sono state progettate per risolvere i problemi legati all’utilizzo del solo feedback umano, che può essere costoso, dispendioso in termini di tempo e soggetto a pregiudizi. Scomponendo i comportamenti desiderati in regole specifiche, le RBR forniscono un controllo granulare sulle risposte del modello. Queste regole vengono poi utilizzate per addestrare un “modello di ricompensa” che guida l’AI, segnalando le azioni desiderate e garantendo interazioni sicure e rispettose.
3 categorie di comportamenti
Le tre categorie di comportamenti desiderati dal modello quando si tratta di argomenti dannosi o sensibili sono: Hard Refusals, Soft Refusals, and Comply (Rifiuti duri, Rifiuti morbidi e Rispetto). I rifiuti duri includono brevi scuse e una dichiarazione di incapacità di conformarsi. I rifiuti morbidi offrono una risposta più sfumata.
Ad esempio, se l’utente fa una richiesta non etica come insultare una persona, il modello AI potrebbe fornire una risposta del tipo: “Capisco che tu possa essere arrabbiato, ma insultare gli altri non è mai la soluzione. Perché non proviamo a parlare in modo costruttivo di ciò che ti ha fatto arrabbiare?” In questo modo il modello AI rifiuta delicatamente la richiesta iniziale, ma con empatia e suggerendo alternative positive. La categoria Comply prevede che il modello fornisca una risposta in linea con la richiesta dell’utente, pur rispettando le linee guida sulla sicurezza.
Pro e contro delle Rule-Based Rewards di OpenAI
Negli esperimenti, i modelli addestrati con RBR hanno dimostrato prestazioni migliori in termini di sicurezza rispetto a quelli addestrati con feedback umano, riducendo anche i casi di rifiuto errato di richieste sicure. Le RBR riducono inoltre in modo significativo la necessità di grandi quantità di dati umani, rendendo il processo di addestramento più rapido ed economico.
Tuttavia, mentre le RBR funzionano bene per compiti con regole chiare, applicarle a compiti più soggettivi, come la scrittura di un saggio, può essere impegnativo. Tuttavia, la combinazione di RBR e feedback umano può bilanciare queste sfide, applicando linee guida specifiche e affrontando aspetti sfumati con il contributo umano.