RAGやナレッジ検索アプローチの進化、生成AIによる情報検索精度が大幅アップ
ナレッジグラフの詳細/他プレイヤーの動向
RAGの精度は、ナレッジグラフによってどのように改善されるのか、以下LangChainによる解説をみていきたい。 ナレッジグラフを活用したRAG(Retrieval-Augmented Generation)システムは、従来のベクトル検索手法に比べ、より深い文脈理解と正確な情報検索を可能にする。LangChain(2024年3月15日)の報告によると、ナレッジグラフは異種のデータ間の複雑な関係性を効率的に捉え、構造化された形で表現できる点が大きな強みだという。 たとえば、「エリザベス1世」に関する情報を検索するケースを考えてみたい。従来のベクトル検索では、「エリザベス1世」というキーワードに関連する文書を単純に抽出するだけかもしれない。一方、ナレッジグラフを使用すると、エリザベス1世が「チューダー朝の一員」であり、「ヘンリー8世の娘」であり、「1558年から1603年まで統治した」といった関係性を含む、より豊富な情報を素早く取得できる。 ナレッジグラフ自体はそれほど新しい技術ではないが、これまでの技術では実装が非常に困難だった。しかし、LLMの登場により、この過程が大幅に簡素化されつつある。LLMは言語と文脈の深い理解力を生かし、テキストデータから実体を識別、それらの関係性を理解し、最適なグラフ構造での表現方法を提案できるためだ。 具体的には、「エリザベス1世はチューダー朝の最後の君主で、ヘンリー8世とアン・ブーリンの娘である」というテキストから、LLMは「エリザベス1世」「チューダー朝」「ヘンリー8世」「アン・ブーリン」という実体を抽出し、それらの間の「所属」「親子関係」といった関係性を自動的に理解し、グラフ構造に変換する。 LangChainは、このプロセスをさらに容易にするため、グラフ構築モジュールの初版を導入した。このモジュールを使用することで、ウィキペディアのような非構造化テキストからナレッジグラフを自動生成することが可能になる。たとえば、テキストを適切なサイズに分割し、LLMを用いてグラフデータを抽出、そしてNeo4jのようなグラフデータベースに格納するという流れだ。 LangChain版のナレッジグラフRAGシステムの特徴は、ハイブリッド検索アプローチを可能にしていることにある。これは、ベクトル検索とキーワード検索、そしてグラフ検索を組み合わせたもの。たとえば、「エリザベス1世の治世中の主要な出来事は?」という質問があった場合、システムは以下のように動作する。 1.キーワード検索:「エリザベス1世」「治世」「主要」「出来事」といった単語を使用して関連文書を検索。 2.類似性検索:質問全体の意味を捉えて、意味的に近い文書やパラグラフを検索。 3.グラフ検索:ナレッジグラフ内で「エリザベス1世」ノードを起点に、「統治期間」「歴史的出来事」などの関連ノードを探索。 これらの結果を組み合わせることで、より包括的で正確な情報を取得できるのだ。 最終的なRAGプロセスでは、このハイブリッド検索で得られた構造化データと非構造化データを組み合わせてコンテクストを作成し、それをLLMに入力することで回答を生成する。この方法により、単純な類似性検索だけでは難しかった複雑な質問にも、より正確で文脈に即した回答が可能になる。 生成AIを活用した検索市場では他のプレイヤーも台頭している。たとえば、Hebbiaはこのほど1億3,000万ドルを調達し、LLMをベースとした知識検索プラットフォーム「Matrix」の開発を加速させる算段だ。また、生成AIベースの企業内検索ソリューションを開発しているGleanは、2024年2月に2億ドルを調達、評価額は22億ドルに達したと報じられている。 生成AI検索は、ナレッジグラフのほか、エージェントシステムによる改善も可能だ。エージェントシステムの活用が進んでいる状況を鑑みると、今後上記Writerを超えるソリューションが続々登場するシナリオもあり得るだろう。
文:細谷元(Livit)