Cum iPhone 17 Pro rulează un model lingvistic cu 400 de miliarde de parametri

iPhone 17 Pro a reușit recent să ruleze un model lingvistic de mari dimensiuni (LLM) cu 400 de miliarde de parametri, în ciuda cerințelor enorme de memorie. Chiar și în formă comprimată, modelul necesită cel puțin 200 GB de RAM. Cum este posibil acest lucru pe un smartphone cu doar 12 GB de memorie LPDDR5X? Răspunsul se află în soluții de inginerie ingenioase.

Un proiect open-source numit Flash-MoE depășește limita de memorie prin utilizarea stocării SSD a iPhone-ului pentru a transfera date direct către procesorul grafic. Modelul MoE ajută și el: generarea fiecărui cuvânt necesită doar o parte din cei 400 de miliarde de parametri, ceea ce reduce sarcina pe dispozitiv.

Viteza de generare rămâne extrem de lentă—doar 0,6 de tokeni pe secundă, ceea ce înseamnă aproximativ un cuvânt la fiecare 1,5 până la 2 secunde. Cu toate acestea, demonstrația arată că astfel de modele masive pot rula pe dispozitive mobile. Folosirea unui model local asigură o confidențialitate completă și elimină nevoia unei conexiuni constante la internet, dar bateria iPhone 17 Pro se descarcă rapid sub această sarcină.

În ansamblu, acest experiment demonstrează că chiar și modelele LLM foarte intensive în resurse pot rula pe un smartphone cu optimizări și utilizarea SSD. Cu toate acestea, practicabilitatea reală a unor astfel de configurații este limitată din cauza vitezelor lente de generare și a încărcării ridicate a sistemului.