ChatGPT ha avuto un impatto enorme nel mondo della tecnologia da quando è stato lanciato alla fine del 2022, tanto da mettere pressione anche a colossi come Google che si è affrettato a presentare la sua intelligenza artificiale generativa in risposta.
Anche se ChatGPT è molto avanzato e versatile nel rispondere alle domande degli utenti, non è perfetto e infallibile. Ad esempio, non fornirebbe mai suggerimenti assurdi e potenzialmente pericolosi come aggiungere della colla commestibile su una pizza per non far sciogliere il formaggio… come l’AI di Google. Tuttavia può comunque commettere degli errori, soprattutto quando si tratta di scrivere frammenti di codice. Non è onnisciente e ha dei limiti che derivano dalla natura statistica del modello di AI su cui si basa.
CriticGPT: il modello di AI che individua gli errori di ChatGPT
Per affrontare questo problema, OpenAI ha addestrato un modello di AI basato su GPT-4, chiamato CriticGPT, con lo scopo di individuare gli errori nel codice prodotto da ChatGPT.
Quando CriticGPT rileva un problema nel codice generato da ChatGPT, è in grado di scrivere dei commenti che spiegano l’errore in dettaglio. Queste critiche e correzioni sono molto utili agli sviluppatori umani di OpenAI che lavorano per migliorare le capacità di ChatGPT.
Le indicazioni di CriticGPT permettono agli ingegneri di correggere gli errori e rendere il sistema sempre più preciso tramite l’apprendimento per rinforzo. Man mano che ChatGPT diventa più competente, però, gli errori diventano sempre più difficili da individuare anche per CriticGPT. Per questo motivo, garantire l’accuratezza di sistemi AI così avanzati rimane una grande sfida.
Il ruolo di CriticGPT e i suoi limiti
CriticGPT entra in gioco per assistere gli addestratori umani nell’individuazione degli errori, ma essendo anch’esso un modello AI, le sue risposte potrebbero non essere sempre corrette e potrebbe essere soggetto alle cosiddette “allucinazioni“. Tuttavia, i risultati mostrano che un secondo addestratore casuale ha preferito le critiche del team Human+CriticGPT rispetto a quelle di una persona non assistita per oltre il 60% del tempo.
Il processo di addestramento di CriticGPT e le sfide future
CriticGPT è stato addestrato attraverso una tecnica chiamata Reinforcement Learning from Human Feedback (RLHF). In questo approccio, l’intelligenza artificiale riceve feedback e critiche da parte di addestratori umani per migliorare le sue prestazioni. Nel caso specifico, gli sviluppatori di OpenAI hanno fornito a CriticGPT moltissimi esempi di codice contenenti errori, sia inseriti deliberatamente dall’uomo che individuati in precedenza da un addestratore.
In questo modo CriticGPT ha imparato a riconoscere e segnalare autonomamente varie tipologie di problemi e imprecisioni nel codice generato da ChatGPT. Nonostante i progressi fatti però, CriticGPT presenta ancora alcuni limiti che OpenAI sta cercando di superare.
Ad esempio, è difficile per CriticGPT analizzare compiti di programmazione molto lunghi e articolati. Inoltre può a volte produrre allucinazioni, come problemi inesistenti a causa di distorte interpretazioni del codice fornite dagli addestratori umani. Il miglioramento di CriticGPT è quindi un processo continuo.