グーグルが投入、ハルシネーションリスクを下げ、事実性を向上させる新AIモデル
DataGemmaで採用されたRIGとは、その詳細を解説
DataGemmaで採用された2つのアプローチのうち、特に注目を集めているのが「Retrieval Interleaved Generation(RIG)」だ。RIGは、LLMの回答生成プロセスに事実確認のステップを組み込むことで、ハルシネーションのリスクを大幅に低減させる手法である。 RIGの具体的な仕組みは以下のようになっている。まず、ユーザーからの質問に対し、DataGemmaモデル(Gemma 2モデルをベースに微調整されたもの)が初期の回答を生成する。この際、モデルは統計データを含む部分を特定し、Data Commonsに対する自然言語クエリを生成する。たとえば、「カリフォルニア州の人口は3900万人です」という回答を生成する代わりに、「カリフォルニア州の人口は[DC(カリフォルニア州の人口は?) → “3900万人”]です」というような形式で出力する。 次に、このクエリを使ってData Commonsから実際のデータを取得し、初期回答の数値と比較・修正を行う。最終的に、修正された回答とともに、Data Commonsのソース情報とリンクが提供される。これにより、ユーザーは回答の根拠となるデータを直接確認することができ、透明性と信頼性が向上する。 RIGアプローチの大きな利点は、ユーザーの元の質問を変更することなく、あらゆる文脈で効果的に機能する点だ。しかし、LLMがData Commonsから更新されたデータを学習・保持しないため、二次的な推論や関連質問に対しては新しい情報を活用できないという制限もある。 グーグルの研究チームによると、RIGアプローチは、LLMに自身の回答を信頼できるソースと照合させることを意味し、AIの信頼性向上に向けた重要なステップになるという。 グーグルは、RIGアプローチをさらに改良し、より多くのユースケースに適用できるよう研究を続けている。将来的には、GemmaモデルだけでなくGeminiモデルにも統合される可能性があるとのこと。