Google DeepMindがファクトチェックに強い「SAFE」を公開 ”超人的”と自称するその詳細と市場の反応
DeepMindが公開した検証結果
今回発表されたSAFEは1万6,000件のファクトを使った検証を実施。人間のファクトチェッカーの評価と驚異の72%もの一致を見せた。さらに、不一致サンプルでは76%でSAFEの判断が正しいという結果も出た。 また、SAFEの特徴はファクトチェックの正確さだけではない。人間のファクトチェッカーと比較して、SAFEの導入は20分の1で収まると主張。LLMが作成するコンテンツ量を考えると、財政面での利益は相当なものになる。また、急増する情報量に対応できる効率的なファクトチェックにはスケーラブルなソリューションが必要になるが、SAFEのキャパシティは莫大なデータを効率的に管理できるとしている。 さらに、DeepMindはGitHubのオープンソースでSAFEのコードやLongFactのデータセットを公開し、精査や構築を可能にしている。オープンにすることで、コミュニティの専門家たちがさらに深掘りできるため、改良が期待されるということだ。 なおLongFactとは、SAFEがファクトチェックに使用した4社(Gemini、GPT、Claude、PaLM-2)から上位13の言語モデルの新しいベンチマークのこと。このベンチマークによると、より規模の大きなLLMほど事実誤認が少ないことも判明している。
過去にも自動ファクトチェッカーを開発しているDeepMind
DeepMindは昨年末にも、AIチャットボットにファクトチェッカーを組み込み、史上初の科学的発見をしたと発表している。数学的、ないしコンピュータに関する問題に対して、不要なアウトプットをふるいにかけた有用なソリューションだけを出力できるFunSearchというものだ。 そもそもLLMは、天気予報やタンパク質構造解明といったAIが扱う正確かつ特定のデータと異なり、性能アップのために品質がバラバラな膨大なデータを扱うため、創造した回答を生み出すハルシネーションがつきものとなってしまっている。 そこで、解答の管理が比較的容易、つまり創造した解答の必要があまりない数学的、コンピュータ関連の問題に限定してファクトチェッカーを組み込んだAIチャットボットの開発に取り組み、FunSearchが開発された。 このFunSearchを使って開発者は、長年の数理科学の未解決問題であった「cap set問題」を解決し、これまでに考えられていたものよりも多い、過去20年間で最大のcap setを導き出した。 続いて、コンピューターサイエンスにとどまらず、実世界でコンテナの積み荷問題から、データセンターへのコンピュータのジョブアロケーションまでを低コストで実現できる実用性の高い問題「ビンパッキング問題」にも挑戦した。 ビンパッキング問題は現在、人間の経験則に基づいたヒューリスティックなアルゴリズムで対処されていることが多いが、各々のサイズやタイミング、容量に合わせて応用するのが困難であった。この問題でもFunSearchは、これまでのヒューリスティックな数値よりも優れた解答を導き出している(より多くのビンのパッキングに成功)。 こうした組み合わせの難題は、ニューラルネットワークと強化学習をもってして解決も可能だが、膨大なリソースを展開しなければならないケースがほとんど。一方で、FunSearchのアウトプットコードは簡単に検証して展開できるため、さまざまな実世界の産業システムに取り入れ、利益還元が可能だとしている。