Mentre le aziende si affrettano a implementare l’AI generativa, le preoccupazioni riguardo all’accuratezza e alla sicurezza dei modelli linguistici di grandi dimensioni minacciano di ostacolare l’adozione diffusa nelle imprese. In questo contesto, Patronus AI, una startup di San Francisco, ha raccolto 17 milioni di dollari in finanziamenti di serie A per rilevare automaticamente gli errori costosi e potenzialmente pericolosi degli LLM su larga scala.
Il round, che porta il finanziamento totale di Patronus AI a 20 milioni di dollari, è stato guidato da Glenn Solomon di Notable Capital, con la partecipazione di diversi investitori e dirigenti tecnologici. Patronus AI è stata fondata da Anand Kannappan e Rebecca Qian, ex esperti di machine learning (ML) di Meta, che hanno sviluppato una piattaforma di valutazione automatizzata unica nel suo genere, in grado di identificare errori come allucinazioni, violazioni di copyright e violazioni della sicurezza nei risultati degli LLM.
Il lato oscuro dell’AI generativa
L’emergere di potenti LLM ha scatenato una corsa agli “armamenti” nella Silicon Valley per capitalizzare le capacità generative della tecnologia. Tuttavia, si sono verificati anche fallimenti eclatanti, come articoli generati dall’AI pieni di errori e documenti di ricerca ritrattati basati su molecole inesistenti e inventate di sana pianta. Secondo Patronus AI, questi passi falsi pubblici non fanno altro che scalfire la superficie di problemi più ampi, endemici degli attuali modelli di linguaggio.
FinanceBench e CopyrightCatcher di Patronus AI
La ricerca pubblicata da Patronus AI, tra cui l’API “CopyrightCatcher” e il benchmark “FinanceBench“, rivela carenze sorprendenti nella capacità dei modelli principali di rispondere accuratamente a domande basate sui fatti. Il benchmark “FinanceBench” ha dimostrato che anche i modelli più avanzati avevano difficoltà a rispondere correttamente a domande finanziarie, mentre l’API “CopyrightCatcher” ha rilevato che gli LLM open-source riproducevano testi protetti da copyright nel 44% dei risultati.
Patronus AI ritiene che il suo approccio orientato alla ricerca e che sfrutta la profonda esperienza dei fondatori la distingua dalle altre startup che stanno costruendo strumenti per la valutazione degli LLM. La tecnologia di base si basa sull’addestramento di modelli di valutazione dedicati che fanno emergere in modo affidabile i casi limite in cui un determinato LLM rischia di fallire.
La sfida della valutazione definitiva degli LLM
Diverse aziende Fortune 500 che operano in vari settori utilizzano già Patronus AI per implementare gli LLM in modo sicuro all’interno delle loro organizzazioni. Con il nuovo capitale, Patronus prevede di aumentare i team di ricerca, ingegneria e vendita, sviluppando al contempo ulteriori benchmark di settore.
Nonostante i progressi di Patronus AI, la convalida definitiva delle prestazioni di un LLM rimane una sfida aperta. Tuttavia, facendo progredire lo stato dell’arte della valutazione dell’intelligenza artificiale, Patronus mira ad accelerare il percorso verso un’implementazione affidabile nel mondo reale.