メタがモバイル向け「超小型」AIモデルを発表。加速するAIモデルの小型化、20倍大きいモデルに匹敵も
言語モデルのコスト、最新のLlama3.1 405Bモデルの例
AIの世界では、モデルのサイズ(パラメータ数)が大きければ、性能も高くなる傾向があるため、巨大なモデルを開発しようという動きが目立っていた。しかし、開発と運用にかかる莫大なコストが問題視され、より小型で効率的なモデルを求める声が高まっている。たとえば、OpenAIのフラッグシップモデルGPT-4のパラメータ数は、1兆以上あると推定されており、運用するために日々膨大な計算処理コストが発生、それがエンドユーザーの(API)コストに転嫁されているのだ。
GPT-4と同等の性能を持つメタのLlama3.1 405B(4,050億パラメータ)モデルも、開発における効率化によりパラメータ数はGPT-4の半分以下になったが、それでも想定される運用コストは安くない。 Artificial Analysisの分析によれば、Llama3.1 405Bモデルのパラメータを格納するには810GBのメモリが必要で、さらに30%の追加メモリを考慮すると、合計1053GBのメモリ容量が必要になるという。 この巨大なメモリ要件を満たすため、GPUの選択が重要になってくる。 AMDの最新GPU「Antares」Instinct MI300Xは、1枚で192GBのメモリを搭載しており、8枚で1,536GBとなる。これはLlama 3.1 405Bモデルを余裕を持って動かせる容量だ。一方、NVIDIAのH100 GPUは1枚80GBのメモリしかないため、16枚(1,280GB)必要となる。 コスト面を見てみると、AMDのMI300Xは1枚約2万ドル(約300万円)と推定される。8枚で16万ドル(約2,400万円)。NVIDIAのH100は1枚2万2,500ドル(約340万円)で、16枚では36万ドル(約5,400万円)になる。さらに、GPUを搭載するサーバー本体のコストも加えると、AMDのシステムは約31万ドル(約4,650万円)、NVIDIAのシステムは約51万ドル(約7,650万円)に達するのだ。 プライバシー/セキュリティの観点から、GPT-4などクラウドベースの言語モデルを利用したくないという企業は、Llama3.1 405Bモデルのようなオープンソースモデルを自社サーバーで運用することが可能ではあるが、この規模のモデルをスムーズに運用するには、少なくとも数千万円から1億円近いコストがかかることを念頭に置く必要がある。