生成AIアプリ展開で迫られる選択、APIかセルフホストか? コストの違いを探る
API利用におけるコスト、OpenAI、Anthropic、Cohereなど
OpenAIなどのAPIを使って生成AIアプリケーションを展開する場合、どれほどのコストが発生するのだろうか。 OpenAIのAPIでは大きくGPT-3.5 TurboとGPT-4 Turboの2つのモデルが提供されている。冒頭でも触れたが、料金体系はトークン量に応じた従量課金制で、トークンは入力トークンと出力トークンに分かれる。たとえばGPT-4 Turboの場合、インプット100万トークンあたり10ドル、アウトプット30ドルとなる。 英語であれば100トークンが75ワードほど、日本語であれば100トークンが100文字ほどの長さに換算される。A4サイズのドキュメント1ページあたりの文字数は、英語で約400ワード、日本語で約1,400文字ほど。つまり、英語であれば1875ページ分のアウトプットを生成すると、30ドルかかる計算となる。GPT-3.5 Turboであれば、1.5ドルとコストは20分の1に下がる。 これを念頭に、展開する生成AIアプリケーションが1リクエストあたり平均3,000トークン、1分あたり5リクエストを処理すると想定すると、トークン量は1分間で1万5,000トークン、1時間で90万トークン、1日で2,160万トークンとなる。インプットとアウトプットの混合価格(100万トークンあたり)をGPT-4 Turbo15ドル、GPT-3.5 Turbo0.8ドルで計算した場合、1日あたりの利用料はGPT-4 Turboが324ドル、GPT-3.5 Turboが17.28ドル。1カ月で計算すると、GPT-4 TurboのAPI利用料は9,720ドル、GPT-3.5 Turboが518ドルだ。 企業における生成AIユースケースでは、RAG(Retreaval Augmented Generation)というアプローチがベースとなる場合が多く、その場合、API利用料のほかにも、RAGにおけるベクトルデータベース利用料やドキュメントの読み込み・抽出にかかるAPI利用料なども追加されることになる。 OpenAI以外にも、AnthropicやCohereなどがAPIを提供している。AnthropicのClaude3は、GPT-4と同等以上の性能を持つとされるモデル。その最高峰となるClaude3 Opusの利用料は、インプット100万トークンあたり15ドル、アウトプットが75ドルとGPT-4よりも高く設定されている(混合価格は30ドル)。上記のシミュレーションを当てはめると、1カ月あたりのAPI利用料は、1万9,440ドルとGPT-4 Turboの2倍かかる計算だ。 OpenAI、Anthropic、Cohere、各社における現時点の最高峰モデルのAPIコストを比べると、CohereのCommand-R+が最も低コストで利用できるモデル。インプット100万トークンあたり3ドル、アウトプット15ドル、混合価格約6ドルで利用できる。上記のシミュレーションでも、1カ月のAPIコストは3,881ドルに抑えられる。 APIを利用する場合、トークン使用量が予想を上回ると、コストが急激に増大するリスクがある。トークン使用量を適切に管理し、コストを最適化するためには、LLMの特性を理解した上で、慎重にアプリケーションを設計する必要がある。プロンプトエンジニアリングやデータの前処理などを工夫し、無駄なトークン使用を減らすことが重要だ。