OpenAI ha appena annunciato un nuovo piano di sicurezza per gestire i rischi potenziali dei suoi modelli AI in fase di sviluppo. Il piano prevede che il consiglio di amministrazione di OpenAI possa esercitare il diritto di veto sulle decisioni dell’amministratore delegato Sam Altman, qualora ritenga che i rischi siano troppo elevati.
Il Preparedness Framework
La società ha spiegato in un post che lo studio dei rischi dell’AI di frontiera, cioè dei modelli di intelligenza artificiale più avanzati e potenti, è insufficiente rispetto alle possibilità e alle necessità attuali. Per questo motivo, ha adottato la versione iniziale del suo Preparedness Framework, un quadro che descrive i processi di OpenAI per identificare, valutare, prevedere e prevenire i rischi catastrofici derivanti da tali modelli.
OpenAI ha precisato che, oltre ai team di “sistemi di sicurezza” che si occupano di monitorare gli abusi e i rischi dei modelli AI esistenti, come ChatGPT, ci saranno due team specifici per i modelli di frontiera. Si tratta del Preparedness Team e del Superalignment Team. Il primo avrà accesso ai modelli di frontiera e si occuperà di testarli e valutarli, mentre il secondo sorveglierà lo sviluppo di modelli “superintelligenti”, cioè di AI capaci di superare l’intelligenza umana.
OpenAI ha affermato di voler anticipare il futuro dell’IA, al di là di ciò che sta accadendo oggi. L’azienda ha dichiarato di essere consapevole che l’umanità è ancora lontana dallo sviluppo di AI superintelligenti, ma di voler essere preparata a tale eventualità.
Le categorie e i livelli di rischio
OpenAI ha indicato che i suoi modelli di frontiera saranno sottoposti a test rigorosi. Al termine dei test verranno fornite delle schede di valutazione dettagliate per quattro categorie di rischio:
- Cybersicurezza;
- Persuasione (bugie e disinformazione);
- Autonomia del modello (capacità di agire autonomamente);
- CBRN (minacce chimiche, biologiche, radiologiche e nucleari, cioè la possibilità di creare qualcosa di dannoso).
OpenAI ha stabilito che a ogni categoria di rischio verrà assegnato un livello di rischio basso, medio, alto o critico, in base ai risultati dei test. Inoltre, verrà calcolato un punteggio post-migrazione, cioè il livello di rischio dopo aver adottato delle misure di mitigazione. Se il livello di rischio è medio o inferiore, il modello può essere rilasciato. Se il livello di rischio è alto, il modello può essere sviluppato ulteriormente, ma con cautela. Se il livello di rischio è critico, il modello deve essere interrotto e non può essere rilasciato.
Le misure di responsabilità
OpenAI ha dichiarato di voler essere responsabile delle conseguenze dei suoi modelli di intelligenza artificiale. Per questo motivo, ha annunciato che, in caso di problemi, coinvolgerà delle terze parti indipendenti per verificare la tecnologia e fornire un feedback. Inoltre, collaborerà con parti esterne e con i suoi team interni, per monitorare l’uso improprio e i rischi di disallineamento dei suoi modelli nel mondo reale.
Infine, ha comunicato di condurre una nuova ricerca per misurare come i rischi si evolvono con la scalabilità dei modelli. L’obiettivo è prevedere i rischi in anticipo, seguendo l’esempio del suo precedente successo con le leggi di scalabilità.