Anthropic、AI開発/実装プロセスを短縮する取り組みを加速、現在の課題と新取り組みへの期待
課題の詳細、多すぎるツール、ファインチューニングにおけるコスト
生成AIアプリケーション開発に関する課題の詳細を見ていきたい。DataikuとCognizantが2024年4月に実施した調査によると、生成AIの実用化において、データ品質/使用可能性が大きな課題となっていることが判明。実に回答者の45%がこの点を指摘している。 データ品質/使用可能性問題に関する最大の懸念は「クリーンデータの欠如」(48%)、これに「データ信頼性の欠如」(27%)、「ツールやスキルの不足」(21%)が続く。多くの企業ではデータ量自体は豊富にあるものの、そのほとんどが生成AIや機械学習を考慮せずに構築されたものであるため、AIのトレーニングには「荒すぎる」という問題が浮き彫りとなっているのだ。 一方で、AIライフサイクルにおけるツールが多すぎる問題も明らかになった。60%の回答者がAIライフサイクルの各段階で5つ以上のツールやソフトウェアを使用していると答え、32%がツールが多すぎると回答。理想的にはツールを5つ以下に抑えたいという回答が71%に上った。上記のカスタマーサポート向けのチャットアプリの事例では、実に15個のツールが使用されている。 ファインチューニングのコストも大きな課題だ。特に、パラメータ数が多いモデルのファインチューニングは非常に高コストだ。SmartCatのAIエンジニア、ミロス・ジビック氏の分析によると、700億パラメータを持つLlama 3モデルのファインチューニングには約1.5テラバイトのGPU VRAMが必要となる。これは20台のNVIDIA A100(各80GB VRAM)に相当する。このような構成のGPUコストは約40万ドル(約5,800万円)にも上る。 クラウドプロバイダを利用する場合でも、コストは決して安くない。AWSの8台のA100 GPUを1時間使用するコストは約40ドル(約5,800円)。700億パラメータモデルを20台のGPUで5日間ファインチューニングすると、約1万2,000ドル(約175万円)のコストがかかる計算になる。 これらのコスト課題により、実際の現場では100億パラメータ未満の比較的小規模なLLMを主に使用するケースが多いとジビック氏は述べている。これらのモデルは、16GBから24GBのVRAMで訓練可能であり、より手頃な価格で実装できる。たとえば、Mistral 7B(70億パラメータ)モデルをセルビア語用にファインチューニングする場合、AWSのNVIDIA A10インスタンスを使用して10時間未満、20ドル(約3,000円)以下のコストで実現可能だという。 このように、生成AIアプリケーション開発には多くの課題が存在する。データ品質の問題、ツールの多さ、高額なファインチューニングコストなど、企業が克服すべき障壁は依然として高い。しかし、これらの課題に対する解決策も登場しつつある。