RAGやナレッジ検索アプローチの進化、生成AIによる情報検索精度が大幅アップ
生成AIの検索アプローチ、従来の「RAG」
企業での生成AI活用においては、企業独自の文脈に沿った回答を生成させることが求められる。これには、大きく2つのアプローチがある。RAG(Retrieval Augmented Generation)とファインチューニングだ。後者は若干手間のかかるアプローチである一方、より少ないリソース/ステップで、企業独自の情報を活用できるとしてRAGアプローチを採用するケースが非常に多い。 RAGとは、大規模言語モデル(LLM)による生成と、外部情報ソースを組み合わせるアプローチ。LLMが有していない企業独自の情報をモデルに与え、企業の文脈に沿った回答を生成させることが可能となる。 RAGアプローチの中核となるのが、Similarity Search(類似性検索)だ。これは、テキストデータを数値ベクトルに変換し、類似性に基づいて検索を行う手法。ユーザーの質問やクエリに最も関連性の高い情報を、大量のデータの中から効率的に抽出することができる。 たとえば、RAGベースの社内向けチャットボットに、ユーザーが自社の休暇規定に関する質問を行った場合、このシステムは休暇規定を記載した社内ドキュメントにアクセスし、関連する箇所を抽出し、その情報を参照して、回答を生成することになる。この場合「休暇規定」というワードを軸とする類似性検索が実行され、関連する情報が抽出されることになる。 GPT-4などの大規模言語モデルには特定企業の社内情報は含まれていない。しかし、RAGアプローチによって、企業の文脈に沿った回答を生成することが可能になるのだ。 しかし、このアプローチにも課題があることが最近のリサーチで明らかになった。Writer社の報告によると、類似性検索をベースとする従来のRAGアプローチには精度面の限界が多数散見されたという。 この限界を明確に示すのが、RobustQAベンチマークの結果だ。RobustQAは、アマゾンが作成した8つの分野に関する質問応答を評価するベンチマークで、5万件の質問で構成されている。ベンチマークの規模や質問表現のバリエーションなど、実世界の複雑性を反映しており、RAGソリューションの精度と効率性を評価するのに有用と考えられている。 Writer社は、このベンチマークを使い、8つの異なるRAGソリューションを評価した。その結果、ほとんどのRAGソリューションの精度が60~70%ほどにとどまることが判明、まだ改善の余地があることが明らかになったのだ。また、既存RAGソリューションのほとんどが回答生成に1秒以上かかっている現状も浮き彫りとなった。