Google DeepMindがファクトチェックに強い「SAFE」を公開　”超人的”と自称するその詳細と市場の反応

5/25(土) 6:03配信

DeepMindが公開した検証結果

今回発表されたSAFEは1万6,000件のファクトを使った検証を実施。人間のファクトチェッカーの評価と驚異の72％もの一致を見せた。さらに、不一致サンプルでは76％でSAFEの判断が正しいという結果も出た。また、SAFEの特徴はファクトチェックの正確さだけではない。人間のファクトチェッカーと比較して、SAFEの導入は20分の1で収まると主張。LLMが作成するコンテンツ量を考えると、財政面での利益は相当なものになる。また、急増する情報量に対応できる効率的なファクトチェックにはスケーラブルなソリューションが必要になるが、SAFEのキャパシティは莫大なデータを効率的に管理できるとしている。さらに、DeepMindはGitHubのオープンソースでSAFEのコードやLongFactのデータセットを公開し、精査や構築を可能にしている。オープンにすることで、コミュニティの専門家たちがさらに深掘りできるため、改良が期待されるということだ。なおLongFactとは、SAFEがファクトチェックに使用した4社（Gemini、GPT、Claude、PaLM-2）から上位13の言語モデルの新しいベンチマークのこと。このベンチマークによると、より規模の大きなLLMほど事実誤認が少ないことも判明している。

過去にも自動ファクトチェッカーを開発しているDeepMind

DeepMindは昨年末にも、AIチャットボットにファクトチェッカーを組み込み、史上初の科学的発見をしたと発表している。数学的、ないしコンピュータに関する問題に対して、不要なアウトプットをふるいにかけた有用なソリューションだけを出力できるFunSearchというものだ。そもそもLLMは、天気予報やタンパク質構造解明といったAIが扱う正確かつ特定のデータと異なり、性能アップのために品質がバラバラな膨大なデータを扱うため、創造した回答を生み出すハルシネーションがつきものとなってしまっている。そこで、解答の管理が比較的容易、つまり創造した解答の必要があまりない数学的、コンピュータ関連の問題に限定してファクトチェッカーを組み込んだAIチャットボットの開発に取り組み、FunSearchが開発された。このFunSearchを使って開発者は、長年の数理科学の未解決問題であった「cap set問題」を解決し、これまでに考えられていたものよりも多い、過去20年間で最大のcap setを導き出した。続いて、コンピューターサイエンスにとどまらず、実世界でコンテナの積み荷問題から、データセンターへのコンピュータのジョブアロケーションまでを低コストで実現できる実用性の高い問題「ビンパッキング問題」にも挑戦した。ビンパッキング問題は現在、人間の経験則に基づいたヒューリスティックなアルゴリズムで対処されていることが多いが、各々のサイズやタイミング、容量に合わせて応用するのが困難であった。この問題でもFunSearchは、これまでのヒューリスティックな数値よりも優れた解答を導き出している（より多くのビンのパッキングに成功）。こうした組み合わせの難題は、ニューラルネットワークと強化学習をもってして解決も可能だが、膨大なリソースを展開しなければならないケースがほとんど。一方で、FunSearchのアウトプットコードは簡単に検証して展開できるため、さまざまな実世界の産業システムに取り入れ、利益還元が可能だとしている。

次ページは：SAFEの信頼性

2/3ページ

Yahoo!ニュース

Google DeepMindがファクトチェックに強い「SAFE」を公開　”超人的”と自称するその詳細と市場の反応

DeepMindが公開した検証結果

過去にも自動ファクトチェッカーを開発しているDeepMind

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）