生成AIアプリ展開で迫られる選択、APIかセルフホストか? コストの違いを探る
オープンソース大規模言語モデルを使う場合のコスト
では、オープンソースのLLMをセルフホストする場合、どれほどのコストがかかるのだろうか。 代表的なオープンソースLLMとしては、メタが提供するLLama2/3やMistralが提供するMixtral8×7Bがあるが、結論からいうと、モデルの規模(パラメータ数)によってセルフホストのコストは大きく変わってくる。 たとえば、Llama2の最も小さな70億パラメータのモデルをアマゾンAWSでホストする場合、推奨インスタンス(ml.g5.48xlarge)の1時間あたりのコストは約1.212ドル、1カ月では875ドルとなる計算だ。一方、130億パラメータのモデルでは、1時間5.67ドル、1カ月4,095ドルとなる。最大となる700億パラメータのモデルでは、1時間16ドル、1カ月1万1,768ドルかかる。
オープンソースの場合、モデルの利用料自体は無料だが、APIを利用する場合と異なり、インフラ構築や運用の手間で、コストが増大する可能性には留意が必要だ。ファインチューニングなどを行う場合、データサイエンティストやMLエンジニア、インフラエンジニアなどの人員コストも無視できない。トレーニングデータの収集や前処理、モデルの評価や改善なども必要で、継続的なコストがかかる。 セルフホストに伴うこれらの間接コストを適切に見積もることは容易ではない。特に、運用の工数は、システムの規模や複雑性、要求される可用性のレベルなどによって大きく異なる。セルフホストのコストメリットを評価する際は、単にクラウドの利用料だけでなく、これらの間接コストも考慮する必要がある。 また、セルフホストでは、利用するオープンソースLLMのライセンスにも注意が必要だ。ライセンスによっては、商用利用に制限がある場合もある。法務部門などと連携し、ライセンス条項を確認することが必須だ。加えて、オープンソースLLMを利用する場合、コミュニティからのサポートは得られるものの、商用サポートは限定的である点にも注意したい。トラブル時の対応は、基本的に自社で行うことになる。 市場競争によりAPI価格にも下落圧力がかかっており、GPT-4も1年前に比べると価格は下がっている。またClaude3 Haikuのように、100万トークンあたりの混合価格が0.5ドルという低価格かつ高性能のモデルも増えつつある。クラウドの利用価格が現在の水準から変化しないとすると、さらなる高性能・低価格モデルの登場によりAPIの魅力が一層高まる可能性もありそうだ。
文:細谷元(Livit)