Hoe de iPhone 17 Pro een groot taalmodel draait met slimme technieken
Ontdek hoe de iPhone 17 Pro een LLM met 400 miljard parameters draait via SSD-gebruik en Flash-MoE, ondanks beperkte RAM en lage snelheden voor privacy en offline gebruik.
Ontdek hoe de iPhone 17 Pro een LLM met 400 miljard parameters draait via SSD-gebruik en Flash-MoE, ondanks beperkte RAM en lage snelheden voor privacy en offline gebruik.
© A. Krivonosov
De iPhone 17 Pro heeft onlangs een groot taalmodel (LLM) met 400 miljard parameters weten te draaien, ondanks de enorme geheugeneisen. Zelfs in gecomprimeerde vorm heeft het model minstens 200 GB RAM nodig. Hoe is dit dan mogelijk op een smartphone met slechts 12 GB LPDDR5X-RAM? Het antwoord ligt in slimme technische oplossingen.
Een open-sourceproject genaamd Flash-MoE omzeilt de geheugenlimiet door de SSD-opslag van de iPhone te gebruiken om data rechtstreeks naar de grafische processor over te brengen. Het MoE-model helpt ook mee: voor het genereren van elk woord is slechts een deel van de 400 miljard parameters nodig, wat de belasting van het apparaat vermindert.
De generatiesnelheid blijft extreem laag—slechts 0,6 tokens per seconde, wat neerkomt op ongeveer één woord per 1,5 tot 2 seconden. Desondanks toont de demonstratie aan dat zulke enorme modellen op mobiele apparaten kunnen draaien. Het gebruik van een lokaal model garandeert volledige privacy en maakt een constante internetverbinding overbodig, maar de batterij van de iPhone 17 Pro raakt snel leeg onder deze werklast.
Al met al laat dit experiment zien dat zelfs zeer veeleisende LLM's op een smartphone kunnen draaien met optimalisaties en SSD-gebruik. De praktische bruikbaarheid van zulke opstellingen is echter beperkt door de lage generatiesnelheden en de hoge belasting van het systeem.