Apple ha sviluppato un nuovo metodo per addestrare modelli linguistici su larga scala (LLM) che va ad integrare sia le informazioni testuali che quelle visive. Si tratta di un importante passo in avanti, in quanto potrebbe aprire a nuovi sviluppi per i futuri prodotti dell’azienda.
Apple: nuovo metodo per addestrare modelli linguistici su larga scala (LLM)
I progressi sono dettagliati nel documento di ricerca denominato “MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training”, il quale mostra un nuovo approccio alla creazione di sistemi di intelligenza artificiale più efficienti e flessibili. Utilizzando un set di dati diversificato che comprende coppie di immagini-didascalie, documenti immagine-testo intervallati e dati di solo testo, Apple afferma che il modello MM1 stabilisce un nuovo standard nella capacità dell’IA di eseguire compiti come la didascalia delle immagini, la risposta visiva alle domande e l’inferenza del linguaggio naturale con un alto livello di precisione.
La ricerca si concentra sulla combinazione di diversi tipi di dati di formazione e architetture di modelli, che consente all’IA di comprendere e generare un linguaggio basato su un mix di segnali visivi e linguistici. Questa capacità è vitale per le attività che richiedono una comprensione con sfumature del mondo circostante, come l’interpretazione di immagini complesse o la risposta a domande che coinvolgono elementi visivi.
Da tenere presente che il colosso di Cupertino sta investendo molto nell’AI, arrivando potenzialmente a circa 1 miliardo di dollari all’anno. A tal riguardo, ricordiamo che sta lavorando su un modello di linguaggio su larga scala denominata Ajax e su un chatbot conosciuto internamente come Apple GPT. L’obiettivo è integrare queste tecnologie in Siri, Messaggi, Apple Music e altri servizi.