Anthropic ha appena annunciato l’introduzione del caching dei prompt nell’interfaccia di programmazione delle applicazioni (API) della sua famiglia di modelli AI Claude, che consentirà agli sviluppatori di salvare i prompt utilizzati di frequente tra le chiamate API.
Il caching dei prompt consente ai clienti di fornire a Claude prompt lunghi che possono poi essere richiamati nelle richieste successive senza doverli inviare nuovamente. “Con il caching dei prompt, i clienti possono fornire a Claude un maggior numero di conoscenze di base e di esempi di output, riducendo al contempo i costi fino al 90% e la latenza fino all’85% per i prompt lunghi“, ha dichiarato l’azienda sul suo blog.
La funzione è ora disponibile in beta pubblica per Claude 3.5 Sonnet e Claude 3 Haiku, mentre il supporto per Claude 3 Opus, il modello più grande, arriverà “presto“.
Un documento del 2023 dei ricercatori dell’Università di Yale e di Google spiega che, salvando le richieste sul server di inferenza, gli sviluppatori possono “ridurre significativamente la latenza nel time-to-first-token, soprattutto per le richieste più lunghe, come le risposte alle domande basate su documenti e le raccomandazioni“. I miglioramenti vanno da 8 volte per l’inferenza basata su GPU a 60 volte per quella basata su CPU, il tutto mantenendo l’accuratezza dell’output e senza la necessità di modificare i parametri del modello.
LLM proprietari, costi elevati per le aziende con utilizzo intensivo
L’utilizzo diffuso di modelli linguistici di grandi dimensioni closed-source, ovvero di proprietà esclusiva di aziende private, sta diventando molto costoso per gli utenti. In particolare, le aziende e gli sviluppatori che fanno un uso intensivo di questi modelli si trovano di fronte a costi elevati e in aumento. Infatti, questi LLM prevedono un addebito per ogni singola interazione, anche quando vengono poste domande molto simili che potrebbero essere servite dalla stessa risposta già fornita in precedenza.
Casi d’uso per il caching dei prompt
Anthropic ha citato diversi casi d’uso in cui il caching dei prompt può essere utile, tra cui gli agenti conversazionali, gli assistenti di codifica, l’elaborazione di documenti di grandi dimensioni e la possibilità per gli utenti di interrogare contenuti di lunga durata memorizzati nella cache, come libri, documenti o trascrizioni. Potrebbe anche essere usato per condividere istruzioni, procedure ed esempi per perfezionare le risposte di Claude, o come modo per migliorare le prestazioni quando più cicli di chiamate allo strumento e modifiche iterative richiedono più chiamate all’API.
Secondo Anthropic, quando il caching dei prompt è abilitata, il sistema controlla se ogni prompt ricevuto è stato precedentemente memorizzato nella cache. In caso affermativo, utilizza la versione memorizzata nella cache; in caso contrario, memorizza il prompt per un uso successivo.
Gli sviluppatori possono definire fino a quattro punti di interruzione del caching in un prompt, che vengono memorizzati nella cache a 1024 token in Claude 3.5 Sonnet (e in Opus, quando la funzione sarà implementata) e a 2048 token in Claude 3 Haiku. Attualmente non è possibile memorizzare nella cache messaggi più brevi. La durata della cache è di cinque minuti, ma viene aggiornata ogni volta che viene utilizzato il contenuto nella cache.
La nuova funzione è accompagnata da una nuova struttura dei prezzi: i token di scrittura della cache sono più costosi del 25% rispetto ai token di input di base, mentre i token di lettura della cache sono più economici del 90%.
E la sicurezza?
L’introduzione da parte di Anthropic del caching dei prompt in Claude per riutilizzare le risposte è un passo nella giusta direzione per ottimizzare l’efficienza. Tuttavia, come sottolinea l’esperto Thomas Randall, è fondamentale prestare attenzione alla sicurezza quando si implementa il caching.
Infatti, se i prompt contenenti informazioni sensibili vengono condivisi tra più organizzazioni senza le dovute precauzioni, questi dati rischiano di trapelare inavvertitamente attraverso la cache. È quindi cruciale seguire best practice di sicurezza e rivedere i prompt salvati in cache.
Mentre Anthropic è tra i primi a introdurre il caching, altre soluzioni open source come GPTCache e Redis lo prevedono già, consentendo enormi risparmi evitando di sottoporre all’LLM prompt molto simili. Ci si aspetta che presto anche altri provider di modelli linguistici proprietari annunceranno funzionalità di caching, indispensabili per ottimizzare l’uso intensivo di questi costosi sistemi AI.