Jak iPhone 17 Pro spouští velký jazykový model s 400 miliardami parametrů

iPhone 17 Pro nedávno dokázal spustit velký jazykový model (LLM) se 400 miliardami parametrů, a to navzdory enormním paměťovým nárokům. I ve zkomprimované podobě model potřebuje alespoň 200 GB RAM. Jak je to možné na chytrém telefonu, který má jen 12 GB LPDDR5X RAM? Odpověď spočívá v chytrých technických řešeních.

Open-source projekt Flash-MoE obchází paměťový limit využitím SSD úložiště iPhonu pro přímý přenos dat na grafický procesor. Pomáhá také architektura MoE: generování každého slova vyžaduje jen část z 400 miliard parametrů, což snižuje zatížení zařízení.

Rychlost generování zůstává extrémně pomalá – pouhých 0,6 tokenů za sekundu, což znamená zhruba jedno slovo každých 1,5 až 2 sekundy. Přesto tato demonstrace ukazuje, že takto masivní modely mohou běžet na mobilních zařízeních. Použití lokálního modelu zajišťuje úplné soukromí a odstraňuje potřebu stálého internetového připojení, ale baterie iPhonu 17 Pro se při této zátěži rychle vybíjí.

Celkově tento experiment ukazuje, že i vysoce náročné LLM lze na chytrém telefonu spustit díky optimalizacím a využití SSD. Praktičnost takových nastavení je však v reálném světě omezená kvůli pomalé rychlosti generování a vysoké zátěži systému.