ChatGPTでも不合格？　会話型AIの「本当の実力」を測る新ベンチマークが登場

8/25(日) 6:03配信

t-bench

ChatGPT、Claude、Gemini、Mistralなど、会話型AIが次々と登場している。ほんの1年前まではChatGPTほぼ一択であったが、いまは多すぎてどれを選べばいいかわからない人も多いはずだ。そんな中、AIスタートアップのSierraが、会話型AIの精度を“客観的に”測るベンチマーク「t-bench（タウベンチ）」を発表した。

会話型AIエージェントの精度を測る「t-bench」

Sierra

SierraはOpenAIの取締役会のメンバーであるブレット・テイラー氏と、GoogleでAR/VR事業に従事していたクレイ・ベイバー氏が創業したAIスタートアップだ。同社は2024年6月、会話型AIエージェント（以下、AIエージェント）のパフォーマンスを評価する新しいベンチマーク「t-bench（タウベンチ）」を発表。t-benchはLLMベースのユーザーシミュレーターを使って、AIエージェントが複雑な会話やタスクを遂行できているかをテストし、その性能を客観的に評価するという。

AIエージェント評価における課題

これまでもWebArena、SWE-bench、Agentbenchなど、既存の評価ベンチマークはいくつか存在した。だがSierraの研究責任者カルティク・ナラシムハン氏は、「従来のベンチマークはいくつかの重要な分野における測定が不足していた」と主張する。ユーザーがAIエージェントとする会話は「一問一答」ではなく、より複雑で連続したものであるはずだ。だが既存のベンチマークは、たとえば「今日の天気はどうですか？」「最高気温は24度、最低気温は16度で晴れています」というような、「1ラウンド」ですべての情報を交換する会話のみを評価対象としている。ナラシムハン氏は「これだけでうまく動いているかを評価するのは現実的でない」と言う。また、連続した会話であっても、会話全体の「平均的なパフォーマンス」評価にとどまり、信頼性や適応性といった尺度には対応していない。

次ページは：t-benchの仕組みと特徴

1/3ページ

Yahoo!ニュース

ChatGPTでも不合格？　会話型AIの「本当の実力」を測る新ベンチマークが登場

会話型AIエージェントの精度を測る「t-bench」

AIエージェント評価における課題

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）