Wie der iPhone 17 Pro ein 400-Milliarden-Parameter-Sprachmodell ausführt

Der iPhone 17 Pro hat kürzlich ein großes Sprachmodell mit 400 Milliarden Parametern ausgeführt – eine beachtliche Leistung angesichts der enormen Speicheranforderungen. Selbst in komprimierter Form benötigt das Modell mindestens 200 GB RAM. Wie ist das auf einem Smartphone mit nur 12 GB LPDDR5X-RAM möglich? Die Antwort liegt in cleveren technischen Lösungen.

Ein Open-Source-Projekt namens Flash-MoE umgeht die Speichergrenze, indem es den SSD-Speicher des iPhones nutzt, um Daten direkt an den Grafikprozessor zu übertragen. Auch die MoE-Architektur spielt eine Rolle: Für die Erzeugung jedes Wortes wird nur ein Teil der 400 Milliarden Parameter aktiviert, was die Belastung des Geräts reduziert.

Die Generierungsgeschwindigkeit bleibt allerdings extrem langsam – nur 0,6 Token pro Sekunde, was etwa einem Wort alle 1,5 bis 2 Sekunden entspricht. Trotzdem zeigt die Demonstration, dass selbst solche riesigen Modelle auf Mobilgeräten laufen können. Ein lokales Modell garantiert zwar vollständige Privatsphäre und macht eine ständige Internetverbindung überflüssig, doch der Akku des iPhone 17 Pro entleert sich unter dieser Last rasch.

Insgesamt beweist dieses Experiment, dass selbst hochgradig ressourcenintensive Sprachmodelle mit Optimierungen und SSD-Nutzung auf einem Smartphone laufen können. Für den praktischen Einsatz sind solche Konfigurationen jedoch aufgrund der langsamen Generierungsgeschwindigkeit und der hohen Systembelastung nur begrenzt tauglich.