マイクロソフト「MInference」はオンプレでの推論スピードを10倍アップ、クラウドに依存しない生成AI利用を促進する技術開発が加速
マイクロソフトのMInferenceアプローチ、その特徴とは
これらのモデルをオンプレミスで利用する際、必須となるのがGPUだ。一般的にはNVIDIAのGPUが利用される。仮に社員100人規模の企業がオンプレミスで生成AIモデルのスムーズな運用を行う場合、NVIDIAのA100GPUが6~8台ほど必要になると想定される。 問題となるのは、そのコスト。8台のGPUを利用する場合、並列処理などが最適化された「DGX」ステーションの形での利用が推奨されるが、そのコストは、導入費用だけでも少なくとも20万ドル(3,150万円)に上る。ここに電力、保守などの運用費用が加算されることになり、年間コストは非常に高額なものになってしまうのだ。 マイクロソフトがこのほど発表した「MInference」は、このコストを大幅に下げる可能性を秘めており、AIコミュニティでも注目される存在となっている。 この技術は、言語モデルの処理において大きなボトルネックとなっている「プリフィリング」段階を大幅に高速化するもので、100万トークン(約700ページ分のテキスト)の入力に対して、処理時間を最大90%削減することができるという。 この手法により、マイクロソフトの研究チームは80億パラメータのモデルで100万トークンを処理するのに、従来は1台のNVIDIA A100 GPUで30分かかっていたところを、約3分まで短縮、最大10倍の高速化が可能になったと報告している。 MInferenceの特筆すべき点は、既存の言語モデルに対して追加の学習や微調整を必要とせず、直接適用できることだ。これにより、モデルの精度を維持しつつ、処理速度を大幅に向上させることが可能となる。また、この技術はGPUの特性を考慮して最適化されており、NVIDIA A100 GPUでの性能向上が報告されているが、他のデバイスへの移植も容易であるという。 上記の条件であれば、同じパフォーマンスを発揮するのに必要なGPUは半分となり、コストを大幅に下げることが可能だ。特に予算が限定される中小企業や研究機関にとって、ゲームチェンジャーとなるアプローチになるかもしれない。