Apple avrebbe già pianificato il lancio di numerose funzionalità di intelligenza artificiale generativa con iOS 18. L’azienda di Cupertino vuole però eseguire i modelli IA direttamente sull’iPhone, evitando l’accesso al cloud per motivi di privacy, sicurezza e prestazioni. Un documento pubblicato da alcuni ricercatori di Apple svela come aggirare le limitazioni.
Inferenza del modello IA sull’iPhone
Tutti i modelli di IA generativa vengono addestrati in data center con server dedicati, sfruttando principalmente la potenza delle GPU. L’accesso al cloud è necessario per l’inferenza, ovvero per l’esecuzione delle funzionalità IA e dei chatbot. I ricercatori di Apple hanno descritto alcune soluzioni che permettono di eseguire i LLM (Large Language Model) direttamente sull’iPhone. Tale approccio è stato adottato anche da Google con il modello Gemini Nano per Pixel 8 Pro.
Il documento descrive due tecniche che consentono di memorizzare i parametri dei modelli nella memoria flash dello smartphone. Ciò evita di caricare l’intero modello nella DRAM. Un modello con 7 miliardi di parametri occuperebbe 14 GB di RAM. Per ridurre la quantità di dati trasferiti dalla memoria flash alla DRAM e incrementare il throughput sono state sviluppate le tecniche note come Windowing e Row-column bundling.
I test effettuati con due configurazioni hardware (Apple M1 Max + SSD da 1 TB e computer Linux con GPU NVIDIA GeForce RTX 4090) hanno confermato l’efficacia della soluzione. L’inferenza dei modelli grandi fino al doppio della DRAM avviene a velocità fino a 4-5 volte superiore rispetto al tradizionale caricamento nella CPU e fino a 20-25 volte superiore rispetto al caricamento nella GPU.