I modelli linguistici di intelligenza artificiale sono in grado di generare testi naturali per svariati scopi, come riassumere, tradurre, rispondere a domande e redigere saggi. Tuttavia, richiedono ingenti risorse computazionali per essere addestrati ed eseguiti, soprattutto in settori che necessitano di alta precisione e bassa latenza.
Apple presenta modelli linguistici economici ed efficienti
Per questo motivo, le recenti ricerche di Apple nel campo dell’AI rappresentano una svolta. L’azienda di Cupertino ha presentato un’innovazione ingegneristica, realizzando modelli linguistici che garantiscono prestazioni elevate pur disponendo di budget limitati. Il lavoro del team Apple, dal titolo “Specialized Language Models with Cheap Inference from Limited Domain Data” (Modelli linguistici specializzati con inferenza a basso costo da dati di dominio limitati), propone un metodo economicamente vantaggioso per lo sviluppo dell’AI, offrendo una soluzione accessibile anche ad aziende prima escluse dai costi proibitivi delle tecnologie avanzate.
Questa novità, che ha ricevuto grande attenzione da parte della comunità scientifica, elimina l’incertezza finanziaria che spesso accompagna i nuovi progetti di intelligenza artificiale. I ricercatori Apple hanno identificato quattro fattori chiave di costo: il budget per il pre-addestramento, il budget per la specializzazione, il budget per l’inferenza e la dimensione del set di dati di addestramento. Gestendo con attenzione questi fattori, è possibile costruire modelli AI efficienti e al contempo accessibili.
Due strade per modelli linguistici specializzati
Il problema, come illustrato dal team Apple, è che “i grandi modelli linguistici sono strumenti versatili, ma difficili da applicare in ambiti con budget limitati per l’inferenza e set di dati di addestramento ridotti“.
La soluzione Apple offre due alternative: hypernetworks e Mixture of experts (MoE) per chi dispone di ingenti budget per il pre-addestramento, e modelli più compatti addestrati selettivamente per contesti dal budget contenuto.
Nella ricerca, gli autori hanno confrontato diversi metodi di machine learning come le hypernetworks, Mixture of experts, ecc., valutandoli in tre campi: biomedico, legale e giornalistico. È emerso che i vari metodi ottengono i risultati migliori a seconda del contesto. Ad esempio, hypernetworks e Mixture of experts mostrano migliori performance con ampi budget di pre-addestramento, mentre modelli compatti addestrati su dataset campionati per importanza sono promettenti con budget di specializzazione elevati.
Lo studio fornisce anche linee guida pratiche per identificare il metodo ottimale dato un campo e budget specifici. Gli autori ritengono che il loro lavoro possa rendere i modelli linguistici più accessibili e utili ad un’ampia gamma di applicazioni ed utenti.
Modelli linguistici efficienti e adattabili: una tendenza in crescita
Il documento si inserisce in un filone di ricerche sempre più ampio su come rendere i modelli linguistici più efficienti e adattabili. Per esempio, Hugging Face, un’azienda che fornisce strumenti e modelli open-source per l’elaborazione del linguaggio naturale, ha recentemente lanciato un’iniziativa con Google che rende più facile per gli utenti creare e condividere modelli linguistici specializzati per vari domini e lingue.
Sebbene siano necessarie ulteriori valutazioni su compiti a valle, la ricerca evidenzia i compromessi che le aziende devono affrontare tra la riqualificazione di modelli di intelligenza artificiale di grandi dimensioni e l’adattamento di modelli più piccoli ed efficienti.