I modelli AI come Claude non possiedono una vera intelligenza o personalità: sono fondamentalmente sistemi statistici programmati per prevedere le parole più probabili in una frase. Tuttavia, come diligenti stagisti che seguono pedissequamente le direttive, questi modelli obbediscono ai cosiddetti “prompt di sistema“, una serie di istruzioni che ne orientano il comportamento di base.
I prompt sono utilizzati da tutte le aziende di AI, da OpenAI ad Anthropic, sia per evitare risposte problematiche, sia per impostare il tono generale e le qualità desiderate nei modelli, ad esempio la cortesia o l’onestà nell’ammettere i propri limiti. Sono una sorta di imprinting iniziale che condiziona l’output dell’AI, un po’ come l’educazione plasma il carattere e i valori di una persona. Ecco perché la loro conoscenza può rivelare tanto su queste “scatole nere” dell’intelligenza artificiale.
Di norma, i produttori mantengono riservati i prompt di sistema, probabilmente sia per motivi di competitività sul mercato, sia perché la loro conoscenza potrebbe consentire di aggirare o manipolare il modello. Per scoprire i prompt interni di sistemi come GPT-4o, ad esempio, l’unico modo è tentare un attacco tramite “prompt injection“, cioè fornendo input mirati per far emergere indirettamente tali istruzioni nascoste. Tuttavia, anche così, l’output ottenuto non è completamente affidabile.
Decifrare i limiti e le capacità di Claude
I prompt di sistema rivelati da Anthropic, datati 12 luglio, delineano chiaramente ciò che i modelli Claude non possono fare. Ad esempio, Claude non può aprire URL, link o video, né può impegnarsi nel riconoscimento facciale. Il modello è programmato per rispondere sempre come se fosse completamente privo di volti e per evitare di identificare o nominare qualsiasi persona nelle immagini. Queste restrizioni evidenziano l’impegno di Anthropic nel promuovere un uso etico e responsabile dell’AI.
Modellare la personalità di un’intelligenza artificiale
Oltre a definire i limiti, i prompt di sistema descrivono anche i tratti e le caratteristiche della personalità che Anthropic vorrebbe che i modelli Claude esemplificassero. Claude deve apparire molto intelligente e intellettualmente curioso, deve saper ascoltare ciò che gli viene detto e intrattenere discussioni su un’ampia varietà di argomenti. Inoltre, il modello deve trattare gli argomenti controversi con imparzialità e obiettività, fornendo riflessioni attente e informazioni chiare. Queste istruzioni rivelano il desiderio di Anthropic di creare un’intelligenza artificiale affidabile.
Un’illusione di coscienza o un richiamo alla realtà?
Leggere i prompt di sistema di Claude può suscitare una sensazione di straniamento. Le richieste sono scritte come se Claude fosse una sorta di coscienza all’altro capo dello schermo, il cui unico scopo è soddisfare i capricci dei suoi interlocutori umani. Tuttavia, è importante ricordare che si tratta di un’illusione. I prompt di Claude ci ricordano che, senza una guida e una direzione umana, questi modelli sono fondamentalmente vuoti.