iPhone 17 Pro obsługuje duży model językowy z 400 miliardami parametrów

iPhone 17 Pro niedawno uruchomił duży model językowy (LLM) z 400 miliardami parametrów, pomimo ogromnych wymagań pamięciowych. Nawet w skompresowanej formie model potrzebuje co najmniej 200 GB pamięci RAM. Jak to możliwe w smartfonie z zaledwie 12 GB pamięci LPDDR5X? Odpowiedź tkwi w sprytnych rozwiązaniach inżynieryjnych.

Otwarty projekt o nazwie Flash-MoE omija limit pamięci, wykorzystując pamięć SSD iPhone'a do bezpośredniego przesyłania danych do procesora graficznego. Pomaga też sam model MoE: generowanie każdego słowa wymaga tylko części z 400 miliardów parametrów, co zmniejsza obciążenie urządzenia.

Prędkość generowania pozostaje wyjątkowo niska – zaledwie 0,6 tokena na sekundę, co oznacza mniej więcej jedno słowo co 1,5 do 2 sekund. Mimo to demonstracja pokazuje, że tak duże modele mogą działać na urządzeniach mobilnych. Użycie lokalnego modelu gwarantuje pełną prywatność i eliminuje potrzebę stałego połączenia z internetem, ale bateria iPhone'a 17 Pro szybko się wyczerpuje przy takim obciążeniu.

Ogólnie rzecz biorąc, ten eksperyment pokazuje, że nawet wyjątkowo wymagające LLM-y mogą działać na smartfonie dzięki optymalizacjom i wykorzystaniu SSD. Jednak praktyczna użyteczność takich rozwiązań jest ograniczona z powodu wolnej prędkości generowania i dużego obciążenia systemu.