グーグル・ディープマインドが開発、LLMの意思決定過程を「透明化」するツール
そもそも大規模言語モデルとは?
大規模言語モデル(LLM)は、人工知能(AI)技術の中でも特に注目を集める存在だ。ChatGPTやGeminiなどを通じて、一般ユーザーにも広く知られるようになった技術だが、その内部構造は複雑で、開発者でさえ完全には理解できていない部分がある。 LLMの基本的な仕組みを理解するには、「トランスフォーマー」と呼ばれるアーキテクチャを知る必要がある。トランスフォーマーは2017年にグーグルの研究チームが発表した技術で、「自己注意機構(Self-Attention)」を中心に構築されている。この自己注意機構により、AIは文章中の各単語が他の単語とどのように関連しているかを把握し、文脈を理解できるようになった。 トランスフォーマーは主に「エンコーダー」と「デコーダー」という2つの部分で構成される。エンコーダーは入力されたテキストを理解し、特徴を抽出する役割を持つ。一方、デコーダーはエンコーダーから得た情報を基に、最終的な出力を生成する。 この過程で重要なのが、テキストデータの「ベクトル化」だ。これは、言葉や文章をAIが処理できる数値の集まり(ベクトル)に変換することを指す。 たとえば、「cat(猫)」という単語は、[1, 0.9, 0.2, 1]といった数値のベクトルに変換できる。この数値は、「動物である度合い」「ペットとしての度合い」「大きさ」「音を出すかどうか」といった特徴を表現している。 同様に、以下のように他の単語もベクトル化できる。 「dog(犬)」:[1, 1.0, 0.4, 1] 動物:1(犬は動物) ペット:1.0(非常に一般的なペット) 大きさ:0.4(猫よりは大きい) 音:1(犬は吠える) 「car(車)」:[0, 0, 1.0, 0] 動物:0(車は動物ではない) ペット:0(ペットではない) 大きさ:1.0(犬や猫よりもはるかに大きい) 音:0(ここでは車が「鳴く」ことはないと仮定) トークン化のプロセスを経て文章全体もベクトル化することが可能だ。たとえば、「The cat sat on the mat.(猫がマットの上に座った。)」という文は、[1, 0.9, 1.2, 1]のようなベクトルに変換することが可能となる。これは、文中の各単語のベクトルを組み合わせて生成される。 このベクトル化により、AIは単語や文章の意味を数学的に処理できるようになるのだが、実際にLLMが扱う次元数は数千に上り、処理過程が非常に複雑化し、AIの意思決定プロセスが不透明になることが問題視されているのだ。 特に問題となっているのが「ハルシネーション」だろう。これは、AIが存在しない情報を生成してしまう事象を指す。ハルシネーションが起こる主な原因として、トレーニングデータの偏りや不完全さといった外的要因が指摘されるが、モデルの内部表現の不確実性、次元数の制限、推論時の確率的な予測、文脈不足や誤解など内的要因も無視できないものとなっている。