2024年は幻覚やバイアス問題の改善に焦点、生成AIアプリケーションの評価ツールが続々登場する理由
大規模言語モデルを活用した生成AIアプリケーションへの期待と懸念
2024年は、大規模言語モデルを活用したユースケース別の生成AIアプリケーションが多数登場する見込みだ。しかし一方で、これらのアプリケーションを導入する、または自社で開発する企業が増えるか否かは、アプリケーションの安全性、正確性、中立性が確保されるかどうかに依拠することになるだろう。 法人文脈ではコンプライアンス/セキュリティ遵守が大前提となるため、社外向け・社内向けに関わらず、生成AIアプリケーションがハルシネーション(幻覚)を起こすことなく、事実を正確に生成すること求められるからだ。生成AIアプリケーションを開発する企業は、こうした導入基準を考慮した形で、アプリケーションを開発・提供しなければならない。 こうした需要を見込み、この1年ほどで、大規模言語モデルを活用した生成AIアプリケーションを開発する企業向けの評価ツールが続々登場しており、選択肢は拡大している。 代表的な生成AIアプリケーション評価ツールの1つとして挙げられるのが、Deepchecksが開発・提供する大規模言語モデル評価ツールだ。 Deepchecksは、イスラエル・テルアビブを拠点とする2019年設立のスタートアップ。シードラウンド資金調達で1,400万ドルを確保、競合企業と比べ比較的豊富な資金を調達しており、この分野における主力企業の1つとして注目されている。 Deepchecksのツールは、どのように生成AIアプリケーションを評価するのか。評価は大きく「モデル特性テスト」「バージョン比較」「リアルタイムモニタリング」「コンプライアンス/リスク管理」4つのステップによって構成されている。 モデル特性テストとは、手動評価とAIによる自動評価を組み合わせ、大規模言語モデルの特性、パフォーマンス、潜在的な落とし穴を評価するテスト。大規模言語モデルといっても、市場にはOpenAIのGPT-3.5、GPT-4に加え、AnthropicのCluade2、CohereのAIモデル、さらにはグーグルのGemini、メタのLlama2、MistralのAIモデルなど多種多様なモデルが存在し、各々異なる特徴を持っている。また、アプリケーション内における設定が変更されると、同じモデルでも挙動が変わることも多く、アプリケーションを安全に運用するには、アプリケーション環境における各モデルの特徴・挙動を把握する必要性が出てくる。 Deepchecksのツールにおけるモデル特性テストは、手動と自動により、アプリケーション環境において各大規模言語モデルがどのような特性を示すのかを分析・評価。またその過程で、期待する出力を生成するための入力値を検出し、入力と出力の最適解である「ゴールデンセット」の検出も可能という。 一方バージョン比較評価では、アプリケーションのバージョンによって大規模言語モデルの出力がどう変化するのかを分析し、改善されるのか、品質が低下するのかを確認することができる。 リアルタイムモニタリングは文字通り、データの逸脱状況や異常に関してリアルタイムのモニタリングを行い、通知を行う。コンプライアンス/リスク管理では、大規模言語モデルが生成する出力が幻覚なのか事実なのかを確認するほか、有害な出力をリアルタイムで確認することもでき、特定条件のもと、そのような有害コンテンツをブロックすることも可能だ。