Google DeepMindがファクトチェックに強い「SAFE」を公開 ”超人的”と自称するその詳細と市場の反応
SAFEの信頼性
では、今回開発されたSAFEはどの程度信頼できるのか。 前述通り人間の評価との一致は72%と同社は主張するが、裏を返せば28%は不一致。不一致サンプルも24%で間違いであるということだ。同社が主張する通り「Superhuman」、つまり超人であるかどうかは議論の余地があると言われている。 専門家からは、同社が比較した「人間」が何を意味するのかを疑問視する声も多く、「超人」とはただ単に、低賃金のクラウドワーカーを超えるという意味での「超」人であって、プロのファクトチェッカーとの比較ではないのであれば、検証は不十分だと指摘する声が上がっているのだ。 DeepMindは、結果説明に実際にどのような人間を使った検証を行ったのか、ファクトチェッカーの研修や給与、ファクトチェックの方法などを明らかにすべきだという声が上がっている。 一方で明らかなのは、SAFEが人間のファクトチェッカーよりも安価になるであろうという事実だ。LLMが生成する情報量が増え続けるこの先、こうした膨大な情報を経済的に効果的に検証していくことはビジネスにおいて死活問題となってくるのは確実だ。
ファクトチェッキングへの期待とポテンシャル
LLMのファクトチェッキングという極めて有益な機能を提供するという点で、LLMとAIの領域における奇跡的な進化ともいえるSAFE。 AIのハルシネーションや非論理的な事実上のコンテンツに、長年悩まされてきた開発者とAIの研究者たちは、SAFEの登場によってこの面倒な問題から解放されるようだ。 単なる検索からバーチャルアシスタンスに至るまで、巨大テック各社がアプリケーション用のLLM開発競争を激化させていく中で、ファクトチェッキングの自動化は非常に重要で、こうした開発の積み重ねが信頼と責任の構築を助長していくと期待されている。 また、AI駆動型のテクノロジーに依存する企業側も、今回の開発が高まりつつあるAIアプリケーションの信頼性と透明性の重要度をさらに強調し、市場により信頼性の高いAIソリューションが生まれることへの期待を高めている。 ただ一方で、今回の発表の検証方法には依然として異論が多く、前述の検証比較対象者の問題だけでなく、DeepMindがそもそも誤情報を含んでいると指摘された過去のあるGoogle検索の結果に依存し、それを正解としていることが大きな疑問だとする声も少なくない。 「自動ファクトチェッキング」の開発発表に、不透明なファクトを提示した形となったDeepMind。今後のさらなる検証が期待される中、疑問を呈する専門家たちのファクトチェッキングも、今後は自動化されるのか、どの学習を基に行われるのかという点も気になる。
文:伊勢本ゆかり / 編集:岡徳之(Livit)