ChatGPTでも不合格? 会話型AIの「本当の実力」を測る新ベンチマークが登場
t-benchの仕組みと特徴
t-benchはこれらの課題に対処するため、ベンチマークに「3つの要件」を定義した。 1つ目は、AIエージェントが情報収集をして複雑な問題解決をするには、長期間にわたって人間やAPIとシームレスに会話をする必要があること。2つ目は、AIエージェントはドメイン固有のポリシーやルールを遵守すること。そして3つ目は、企業や組織が安心して利用するために、膨大なインタラクションの一貫性と信頼性を担保しなければならないことである。 t-benchには、「現実的な対話」「オープンエンドで多様なタスク」「客観的な評価」そして「モジュール式フレームワーク」といった4つの特徴がある。 言語の生成モデリングが進化したため、t-benchでは複雑なデータベースと現実的な対話シミュレーションができるようになった。そして「会話自体の評価」ではなく、エージェントの能力そのものを迅速かつ客観的に評価する。また、モジュール式に構築されているため、新しいドメインやデータベースエントリ、ルール、API、タスクなどを簡単に追加できる。 さらにt-benchは、ドメイン固有のポリシーに従いながらユーザーやAPIと対話する能力も測定できる。LLMベースのユーザーシミュレーターを活用して複雑な会話を生成し、エージェントを評価するのである。
GPT-4oでも評価は50%未満
Sierraではτ-benchを使って、代表的な12のAIエージェント(OpenAI、Anthropic、Google、Mistralが開発したAIモデル)に対するベンチテストを行った。小売(τ-retail)と航空(τ-airline)の2つのドメインを構築し、一般的なユースケースを対象とした。 結果としては、ChatGPTの最新版「GPT-4o」が最もパフォーマンスが高いことが明らかになった。しかし驚くべきは、それでも平均成功率が50%に満たなかったことだ。 さらに、テストしたすべてのAIエージェントは信頼性においてパフォーマンスが非常に悪く、エピソードが再実行された際、まったく同じタスクを解決することができなかった。 たとえば、GPT-4oを搭載したτ-retailは、8回目のスコアは約25%であり、1回目と比較すると60%も落ちている。これは、8名(8社)の顧客が同じ問題を抱えていたとき、問題を解決できる可能性はたった25%であるということを示している。