ハイエンドスマホ向け新型SoC「Snapdragon 8 Elite」にみるAI半導体の進化
Snapdraonシリーズにおける「AIハードウェア」の実際
先述の通り、スマホ向けCPU/SoCのNPUでは、大量のMAC演算を高速かつ低消費電力で実行できるかが重要になってくる。個々の計算そのものには依存性はないため、並列処理をいかに効率化できるかが重要となる。 同様の処理はGPUでも可能で、元々は深層学習と推論の実行はどちらもGPUが得意とする領域だった。それは現在も変わらない。しかし、GPUとNPUを比べると低消費電力時における効率性において、最も大きな違いがデル。 他方、こうした大量の並列演算はCPUでも「SIMD演算」の形で命令系統に組み込まれている。代表的なものがIntelのCPUにおける「MMX(Multimedia Extensions)」や「SSE(Streaming SIMD Extensions)」だ。場合によっては、CPUがAIにまつわる演算を担うことが考えられる。 Snapdragonシリーズでも、CPUコアの「Oryon」、GPUコアの「Adreno」、そしてNPUコアのHexagonがAI処理を“分担”している。 例えば、従来からある「コンピュータビジョン」のような画像認識の世界では、Transformerモデルは利用されず、実行に最適な演算ユニットも異なる。またNPUは精度を犠牲にしてスピードと実行効率を重視する傾向にあるため、ADASのようにユースケースには不向きだ(この場合GPUの利用が好まれる)。この他、AI処理としては軽いものの、レスポンス(応答速度)を最優先するユースケースもある。 レスポンスと低消費電力を両立したい場合、特定機能を担う簡易的なNPUを用意するいう手もある。昨今のSnapdraonシリーズであれば、カメラの画像処理を担うイメージプロセッサ「Spectra」は補助NPU「Sensing Hub」を使って高速かつ低消費電力で画像に関する処理を行っている。 レスポンスそのものを優先するAI処理なら、処理系統としては最もレスポンスの良いCPUコアでSIMD演算を実行してAI処理を行うというケースも想定している。 このようにハードウェア全体でベストな実行形態を模索しているのがSnapdragonといえるだろう。 ただ、実際のところ、スマホのようなモバイル端末にとって、LLMのような処理はまだまだ“重量級”というのが実情のようだ。 Snapdragon 8 Eliteを搭載したリファレンスデザイン(QRD)のスマホで「Qwen2.5-14B」(※1)が稼働するデモを見たのだが、度重なるデモと周囲の外気温の暑さでサーマルスロットリングがかかったのか、応答が返って来るまでに数十秒程度待たされた。本来は「数秒」を想定したようだが、それよりも大幅に時間を要していた。 (※1)説明員は「Llama」が動いていると言っていたが、画面にはQwen2.5-14Bが表示されていた NPUを活用したとしても、ハイエンドスマホでハイエンドモバイルゲームを高FPSで動かした時と同じくらいに発熱している状況なので、「優秀なAIエージェントを常にスマホでで動作させておく」というのは、もう少し先の未来の話なのかもしれない。
ITmedia PC USER