Мобильные устройства

Как iPhone 17 Pro «обманул» законы памяти и запустил огромную языковую модель

Недавно iPhone 17 Pro смог запустить большую языковую модель (LLM) с 400 миллиардами параметров, несмотря на колоссальные требования к памяти — даже в сжатом виде для работы модели требуется как минимум 200 Гб ОЗУ. Как это стало возможным на смартфоне с 12 Гб оперативной памяти LPDDR5X? Ответ кроется в хитрых инженерных решениях.

Проект с открытым исходным кодом Flash-MoE позволил обойти лимит памяти, используя SSD-накопитель iPhone для передачи данных непосредственно на графический процессор. Модель MoE также помогает: для генерации каждого слова требуется лишь часть из 400 млрд параметров, что снижает нагрузку на устройство.

Скорость генерации остаётся крайне низкой — всего 0,6 токенов в секунду, то есть примерно одно слово каждые 1,5–2 секунды. Несмотря на это, демонстрация показывает возможность запуска таких массивных моделей на мобильных устройствах. Использование локальной модели обеспечивает полную конфиденциальность и отсутствие необходимости постоянного подключения к интернету, однако батарея iPhone 17 Pro быстро разряжается при такой нагрузке.

В целом, опыт демонстрирует, что даже крайне ресурсоёмкие LLM можно запускать на смартфоне с оптимизациями и использованием SSD, но реальная практическая польза от таких экспериментов ограничена из-за медленной генерации и высокой нагрузки на систему.