iPhone 17 Pro kjører stor språkmodell med 400 milliarder parametre

iPhone 17 Pro har nylig klart å kjøre et stort språkmodell med hele 400 milliarder parametre, til tross for enorme minnekrav. Selv i komprimert form trenger modellen minst 200 GB RAM. Hvordan er dette mulig på en smarttelefon med bare 12 GB LPDDR5X RAM? Svaret ligger i smarte ingeniørløsninger.

Et åpen kildekode-prosjekt kalt Flash-MoE omgår minnegrensen ved å bruke iPhone-ens SSD-lagring for å overføre data direkte til grafikkprosessoren. MoE-modellen hjelper også: å generere hvert ord krever bare en del av de 400 milliardene parameterne, noe som reduserer belastningen på enheten.

Genereringshastigheten forblir ekstremt lav – bare 0,6 tokens per sekund, som tilsvarer omtrent ett ord hvert 1,5 til 2. sekund. Til tross for dette viser demonstrasjonen at slike massive modeller faktisk kan kjøre på mobile enheter. Å bruke en lokal modell sikrer fullstendig personvern og eliminerer behovet for konstant internettforbindelse, men iPhone 17 Pro-ens batteri tømmes raskt under denne belastningen.

Samlet sett viser dette eksperimentet at selv høyt ressurskrevende språkmodeller kan kjøre på en smarttelefon med optimaliseringer og SSD-bruk. Men den praktiske nytten av slike oppsett er begrenset på grunn av treg genereringshastighet og stor belastning på systemet.