RAGやナレッジ検索アプローチの進化、生成AIによる情報検索精度が大幅アップ
Writerにみる、ナレッジグラフを活用するアプローチ
従来の類似性検索のみをベースとするRAGアプローチには限界が見えてきた。そんな中、ナレッジグラフを統合する新しいアプローチが登場し、注目を集めている。上記、既存のRAGアプローチの精度を調査したWriter社が提供する新しいRAGシステムは、その好例となる。 同社の新しいRAGシステムの特筆すべき点は、単純なベクトル検索に頼るのではなく、データポイント間の意味的関係をマッピングするナレッジグラフベースのアプローチを採用していることだ。このアプローチでは、データを小さな単位に分解し、それらの間の意味的な関連性を構造化している。 ナレッジグラフを活用したRAGシステムの強みは、複雑な知識構造を効果的に表現できる点にある。 たとえば、企業の情報システムに関するナレッジグラフでは、「ファイアウォール」というセキュリティ要素と「クラウドサーバー」というアーキテクチャ要素を「保護する」という関係で結びつけたり、「データ暗号化ポリシー」と「SSL・TLS」技術を「実装方法」として関連付けたりすることが可能だ。さらに、「不正アクセス」というリスクと「多要素認証」という対策、「顧客管理システム」と「決済システム」の相互依存関係、「GDPR」のような法規制と「データマスキング」技術の関連性なども表現できる。 このような多面的な関係性の表現により、「クラウドサーバーのセキュリティ対策は何か」「GDPRに準拠するための具体的な技術対策は何か」といった複雑な質問に対しても、文脈を考慮した包括的な回答が可能になる。単純なキーワード検索やベクトル検索では非常に難しいものとなる。 Writerのシステムは、このアプローチを採用したことで検索可能な範囲が1,000万ワード(英語)まで拡張された。英語の1,000万ワードとは、ドキュメント2万ページに相当する情報量。社内のあらゆるデータが検索対象となり、より関連性の高い回答を生成することが可能になった。 実際、上記のベンチマーク比較において、Writer社が自社のナレッジグラフベースRAGアプローチのパフォーマンスを測定したところ、精度86.31%と、他のアプローチを圧倒、さらには応答速度が0.6秒とこちらも他アプローチよりも高速であることが示された。