Per le aziende che si avventurano nel mondo dell’intelligenza artificiale, sia per migliorare l’esperienza dei dipendenti che per soddisfare le esigenze dei clienti, la domanda più critica non riguarda tanto la scelta del modello o il suo utilizzo, quanto piuttosto il momento in cui il modello selezionato può essere considerato sicuro per la distribuzione.
Test approfonditi: la chiave per evitare rischi
Quanto è necessario testare il backend? Quali tipi di test devono essere eseguiti? Le aziende sono ben consapevoli dei rischi associati a un’implementazione frettolosa dell’AI, come dimostrano le disavventure di alcuni concessionari di auto che hanno utilizzato ChatGPT per l’assistenza clienti, ritrovandosi a vendere veicoli per un solo dollaro a causa di utenti poco onesti.
Sapere come testare i modelli, in particolare le versioni perfezionate dei modelli di intelligenza artificiale, può fare la differenza tra un’implementazione di successo e un fallimento che danneggia la reputazione e le finanze dell’azienda.
Kolena: la soluzione per test rapidi e accurati dei sistemi AI
Kolena, una startup di San Francisco co-fondata da un ex senior engineering manager di Amazon, ha annunciato oggi il rilascio su larga scala della sua AI Quality Platform, un’applicazione web progettata per consentire test e convalide rapidi e accurati dei sistemi di AI.
La piattaforma offre una vasta gamma di funzionalità, tra cui il monitoraggio della qualità dei dati, i test dei modelli e i test A/B, nonché il monitoraggio della deriva dei dati e del degrado dei modelli nel tempo. Inoltre, fornisce strumenti di debug per facilitare l’individuazione e la risoluzione dei problemi.
Come funziona la AI Quality Platform di Kolena
La soluzione di Kolena è progettata per supportare gli sviluppatori di software e il personale IT nella costruzione di sistemi di intelligenza artificiale sicuri, affidabili e corretti per i casi d’uso reali.
Consentendo lo sviluppo rapido di casi di test dettagliati a partire da set di dati, la piattaforma facilita l’esame approfondito dei modelli di AI/ML negli scenari che dovranno affrontare nel mondo reale, andando oltre le metriche statistiche aggregate che possono oscurare le prestazioni di un modello su compiti critici.
I clienti di Kolena collegano il modello desiderato all’API della piattaforma, forniscono il proprio set di dati per l’AI e specificano una serie di “requisiti funzionali” per il funzionamento del modello. Inoltre, possono scegliere di misurare attributi come la parzialità e la diversità di età, razza, etnia e decine di altre metriche.
Kolena esegue test sul modello simulando centinaia o migliaia di interazioni per verificare se il modello produce risultati indesiderati e, in tal caso, con quale frequenza e in quali circostanze o condizioni. Inoltre, ripete i test sui modelli dopo gli aggiornamenti, l’addestramento, la riqualificazione, il perfezionamento o le modifiche apportate dal fornitore o dal cliente, nonché durante l’utilizzo e la distribuzione.
Due anni di beta testing con clienti di alto profilo
Kolena ha testato a fondo la sua AI Quality Platform per verificare l’efficacia di altri modelli di intelligenza artificiale. Negli ultimi 24 mesi, l’azienda ha offerto la piattaforma in una beta chiusa a un gruppo selezionato di clienti, tra cui startup, alcune delle aziende più potenti a livello globale, agenzie governative e istituti di standardizzazione dell’AI.
Questo gruppo di clienti ha già eseguito “decine di migliaia” di test su modelli di IA attraverso la piattaforma di Kolena, contribuendo a perfezionarla in base ai loro casi d’uso, alle loro esigenze e ai loro feedback.