El iPhone 17 Pro ha logrado ejecutar recientemente un modelo de lenguaje grande (LLM) con 400.000 millones de parámetros, a pesar de los enormes requisitos de memoria. Incluso en forma comprimida, el modelo necesita al menos 200 GB de RAM. Entonces, ¿cómo es posible esto en un teléfono inteligente con solo 12 GB de RAM LPDDR5X? La respuesta está en soluciones de ingeniería inteligentes.
Un proyecto de código abierto llamado Flash-MoE sortea el límite de memoria utilizando el almacenamiento SSD del iPhone para transferir datos directamente al procesador gráfico. El modelo MoE también ayuda: generar cada palabra requiere solo una parte de los 400.000 millones de parámetros, lo que reduce la carga en el dispositivo.
La velocidad de generación sigue siendo extremadamente lenta: apenas 0,6 tokens por segundo, lo que significa aproximadamente una palabra cada 1,5 a 2 segundos. A pesar de esto, la demostración muestra que modelos tan masivos pueden ejecutarse en dispositivos móviles. Usar un modelo local garantiza privacidad completa y elimina la necesidad de una conexión a internet constante, pero la batería del iPhone 17 Pro se agota rápidamente bajo esta carga de trabajo.
En general, este experimento demuestra que incluso los LLM altamente intensivos en recursos pueden ejecutarse en un teléfono inteligente con optimizaciones y uso de SSD. Sin embargo, la practicidad real de tales configuraciones es limitada debido a las lentas velocidades de generación y la alta tensión en el sistema.