L'iPhone 17 Pro exécute un modèle de langage massif grâce à des astuces d'ingénierie

L'iPhone 17 Pro a récemment réussi à exécuter un grand modèle de langage (LLM) de 400 milliards de paramètres, malgré des besoins en mémoire énormes. Même sous forme compressée, le modèle nécessite au moins 200 Go de RAM. Comment est-ce possible sur un smartphone doté de seulement 12 Go de RAM LPDDR5X ? La réponse réside dans des solutions d'ingénierie astucieuses.

Un projet open-source nommé Flash-MoE contourne la limite de mémoire en utilisant le stockage SSD de l'iPhone pour transférer des données directement vers le processeur graphique. Le modèle MoE aide également : générer chaque mot ne requiert qu'une partie des 400 milliards de paramètres, ce qui réduit la charge sur l'appareil.

La vitesse de génération reste extrêmement lente, à seulement 0,6 jeton par seconde, soit environ un mot toutes les 1,5 à 2 secondes. Malgré cela, la démonstration montre que de tels modèles massifs peuvent fonctionner sur des appareils mobiles. Utiliser un modèle local garantit une confidentialité totale et élimine le besoin d'une connexion internet constante, mais la batterie de l'iPhone 17 Pro se vide rapidement sous cette charge de travail.

Globalement, cette expérience démontre que même les LLM très gourmands en ressources peuvent tourner sur un smartphone grâce à des optimisations et à l'utilisation du SSD. Cependant, la praticité réelle de telles configurations est limitée en raison des vitesses de génération lentes et de la forte sollicitation du système.