生成AIが嘘をつく「幻覚症状」問題、最新のベンチマークテストで明らかになった最も正確なAIモデルとは?
生成AIモデルの正確性(幻覚症状の少なさ)の変遷
企業の生成AI活用を足踏みさせる要因の1つに生成AIの「幻覚症状(hallucination)」問題がある。ユーザーの質問に対し、事実ではないことをあたかも事実のように述べる生成AIの性質の1つで、オープンソース、クローズドソースを含めどの生成AIモデルにも内在する問題となっている。 たとえばChatGPTは2022年11月にリリースされたが、リリース直後のモデル(GPT-3.5)では、かなり多くの幻覚症状問題が報告されていた。またリリース直後のグーグルBardも同じく幻覚症状が多いといわれ、メディアで指摘されることも少なくなかった。 それでも2023年12月時点において、AI開発企業各社はこの幻覚症状を抑制するための取り組みを進めており、1年前と比較すると幻覚症状問題は大きく改善しつつある状況だ。 OpenAIの主力競合Anthropicは2023年11月21日、最新モデル「Claude2.1」を発表したが、この最新モデルの正確性は前モデルであるClaude2.0に比べ2倍増加したと報告している。つまりAIモデルが「嘘をつく」確率を半減させたことになる。 Claudeを含め世の中に存在する生成AIモデルは、ユーザーの質問に対する回答を知らない場合でも、強制的に何らかの情報をアウトプットすることを優先しており、これが幻覚症状に繋がる要因の1つになっている。Claude2.1では、ユーザーの質問に対する回答をAIモデルが持ち合わせていない場合、「分かりません」と回答できるようになり、これが回答の正確性向上に寄与したようだ。
シリコンバレーAI企業が調査、幻覚症状指数でみる生成AIモデルの正確性
企業が生成AIを活用する際、正確性が高いAIモデルを選びたいはず。 最近では各AIモデルの回答の正確性(幻覚症状の少なさ)を分析した包括的なベンチマークレポートがいくつか発表されており、正確性とコストのバランスを見極める上で参考にすることが可能となっている。 その1つとしてまず挙げられるのがシリコンバレーのAI企業Galileoが2023年11月15日に発表した「LLM Hallucination Index(大規模言語モデル幻覚症状指数)」だ。 その名の通り、生成AIアプリケーションのベースとなる主要大規模言語モデルがどれほど正確な情報を生成するのか(幻覚症状にならないのか)を調べ、指数化したもの。OpenAIなどのクローズドソースモデルに加え、メタのLlama2などオープンソースモデルも分析対象としている。 このベンチマークレポートにおいては、3つの方法で各AIモデルの正確性が調査された。1つは、外部情報を与えずAIモデルの情報のみで回答を生成させた場合。もう1つはAIモデルに外部情報を与え回答を生成させた場合。そして長文回答を生成させた場合だ。 結論からいうと、これら3つの方法において、いずれも正確性でトップとなったのは、OpenAIのフラッグシップモデルである「GPT-4-0613」だった。これはGPT-4の中でも2023年6月13日にリリースされた比較的新しいモデルで、現時点においては市場で最も優れたモデルといわれている。このベンチマークにおいてそれを証明した格好となる。 注目したいのは、GPT-4が最も優れたモデルというのは周知の事実である一方、一部のオープンソースモデルがGPT-4に近いパフォーマンスを示したということだ。GPT-4は最も優れたモデルであるが、最もコストが高く、この高コストも生成AI活用を足踏みする要因の1つになっている。 オープンソースモデルが最大の正確性を発揮したのは長文生成タスクだ。 長文生成ではAIモデルの正確性を「Correctness Score(正確性スコア)」という指標で測っている。このスコアが最大となったのは、0.83を記録したGPT-4-0613モデル。これに0.82という僅差で2位につけたのがメタのオープンソースモデル「Llama2-70b-chat」だったのだ。 スコア順にトップ10を並べると、GPT-4-0613(スコア=0.83)、Llama2-70b-chat(0.82)、GPT-3.5-turbo-1106(0.82)、GPT-3.5-turbo-0613(0.81)、Llama2-13b-chat(0.79)、Zephyr-7b-beta(0.74)、GPT-3.5-instruct(0.74)、Llama2-7b-chat(0.72)、Falcon-40b-instruct(0.70)、Mistral-7b-instruct-v0.1(0.65)となる。 OpenAIのGPTモデルに対し、メタのLlama2、Hugging FaceのZephyr、アラブ首長国連邦ドバイ政府傘下のTechnology Innovation Institute(TII)が開発したFalconモデル、フランスのAIスタートアップMistral AIが開発したMistralなどのオープンソースモデルが健闘している状況が浮き彫りとなった。 このベンチマーク調査では、GPT-4を筆頭にOpenAIのGPTモデルが全体的に高いパフォーマンスを示した一方で、長文生成や外部情報を与えた場合には、GPTモデルとオープンソースモデルの差が縮まる傾向が観察された。そのような用途においては、オープンソースモデルも十分に選択肢となり得る可能性を示す調査結果といえる。