スマートフォンの演算能力の限界はどこにあるのか。
3月23日、4000億パラメータを持つ大規模言語モデルが
技術的な「ブラックテクノロジー」: フラッシュ転送と混合エキスパートモデル
メモリ容量が極めて不足している状況下で、この「不可能なタスク」を実現するためには主に2つの技術経路に頼りました:
SSDによる「拡張」: Flash-MoEというオープンソースプロジェクトを利用して、デバイスが直接SSDからGPUへデータをストリーミングし、物理的なメモリの上限を超えることができました。
MoEアーキテクチャの利点: 「MoE」とは混合エキスパートモデル(Mixture of Experts)を意味し、これは各単語を生成する際に4000億のパラメータの一部のみを呼び出すことで、全体をロードしないことを意味します。
速度の欠点: 2秒ごとに1語ずつ表示
「動作した」ことは確かですが、実際の体験は「使える」ものとは大きなギャップがあります。テスト結果によると:
生成速度: たったの0.6Token/秒です。つまり、約1.5〜2秒ごとに1語しか生成できません。
消費電力の問題: このような高負荷のローカル計算はスマートフォンのバッテリー寿命を急速に減らし、発熱も無視できません。
業界への示唆: ローカルの大規模モデルの「特異点」が迫る?
現在の生成速度は「イライラ」させますが、今回のデモの象徴的な意味合いは実用価値よりもはるかに大きいです。スマホでトップレベルの大規模モデルをローカルで動作させることが不可能ではないことを証明しました。
プライバシーの防衛線: ローカルで動作するため、データをクラウドにアップロードする必要がなく、非常に高いプライバシー保護が可能です。
オフラインでの実現可能性: インターネット接続がない環境でも、最上位のAIの返答を得ることが可能になります。
業界関係者はこう述べています。「動くこと」と「スムーズに使えること」は別物です。しかし、アルゴリズムの最適化とハードウェアの進化が進むにつれて、0.6トークンが60トークンに進化するとき、スマートフォンは本格的に「自分の脳」として進化するでしょう。
