iPhone 17 Proで大規模言語モデルを動作させる方法と課題

iPhone 17 Proは、膨大なメモリ要件にもかかわらず、4000億パラメータの大規模言語モデル(LLM)を動作させることに最近成功した。圧縮された状態でも、このモデルは少なくとも200GBのRAMを必要とする。では、わずか12GBのLPDDR5X RAMを搭載したスマートフォンで、どうしてこれが可能なのだろうか。その答えは、巧妙なエンジニアリング・ソリューションにある。

オープンソース・プロジェクト「Flash-MoE」は、iPhoneのSSDストレージを利用してデータをグラフィックス・プロセッサーに直接転送することで、メモリ制限を回避している。MoEモデルも役立っている。各単語を生成するのに必要なのは、4000億パラメータの一部のみであり、これによりデバイスへの負荷が軽減されるのだ。

生成速度は依然として極めて遅く、1秒あたりわずか0.6トークン、つまりおおよそ1.5〜2秒に1単語のペースである。それにもかかわらず、このデモンストレーションは、これほど大規模なモデルがモバイル・デバイス上で動作し得ることを示している。ローカル・モデルを使用することで、完全なプライバシーが確保され、常時インターネット接続も不要になる。しかし、このワークロード下ではiPhone 17 Proのバッテリーは急速に消耗する。

全体として、この実験は、最適化とSSDの活用により、非常にリソースを消費するLLMでさえスマートフォン上で動作可能であることを示している。しかし、生成速度の遅さとシステムへの高い負荷のため、このようなセットアップの実用性は限られている。