アブダビのAI組織が「トランスフォーマー」に代わるモデルを開発、メタのモデルをも超えるその実力とは?
トランスフォーマーに代わるアーキテクチャ「SSM」とは?
GPTモデルなど生成AI市場で幅を利かせる大規模言語モデル(LLM)は、ほとんどが「トランスフォーマー」と呼ばれるアーキテクチャをベースとしている。アーキテクチャとは、AIモデルの基本的な構造や設計のことを指す。しかし、このトランスフォーマーアーキテクチャにはいくつかの課題があり、それを克服するための研究開発が日々進められている。 トランスフォーマーモデルが抱える課題の1つが長文処理だ。トランスフォーマーモデルは、その構造上、テキスト内の各単語(またはトークン)を他のすべての単語と比較してコンテキストを理解しようとするため、コンテキストウィンドウ(モデルが一度に処理できる文章の長さ)が大きくなるにつれて計算能力とメモリ利用が急増する傾向にあるのだ。そのため、リソースが適切にスケーリングされない場合、推論速度が低下し、一定の長さを超えるテキストを処理できなくなる可能性がある。最近は大幅に改善されたが、以前のChatGPTでも、長文プロンプトを入力するとエラーが頻繁に起こっていた。もしかすると、この構造上の問題が影響していた可能性が考えられる。 この課題を克服するために提案されたアプローチの1つが、カーネギーメロン大学とプリンストン大学の研究者らが2023年12月に提案した「Mamba SSM」アーキテクチャだ。SSMとは「State Space Model(状態空間モデル)」の略で、単語を処理しながら「状態」を継続的に更新することで文脈を理解する仕組み。ここでいう「状態」とは、モデルが文章を読み進めながら蓄積する情報のこと。この手法により、トランスフォーマーのような注意機構を使わずに、長い文章を効率的に処理できるという。 Mamba SSMの特徴は「選択メカニズム」にある。これは、人間が文章を読むときに重要な部分に注目するのと似たような働きをする。たとえば、長い小説を読むとき、私たちは物語の展開に重要な部分に注目し、それほど重要でない細かい描写は軽く読み流すことがある。Mamba SSMの選択メカニズムも、これと似たようなことを行っている。 この仕組みにより、Mamba SSMは長い文章(例えば本1冊分)を効率的に処理することが可能となった。従来のAIモデルでは、文章が長くなるほど必要な計算量やメモリが急激に増えてしまう問題があったが、Mamba SSMにはこの問題が発生しない。 さらに、Mamba SSMには「線形でスケーリングする」という特性がある。これは、処理する文章が長くなっても、必要な計算時間がゆるやかにしか増えないということだ。たとえば、100ページの本を読むのに10分かかるとすれば、200ページの本は20分、300ページの本は30分というように、ページ数に比例して読む時間が増えていくイメージである。 一方、従来のトランスフォーマーモデルは「二次関数的にスケーリング」する。これは、文章が長くなるほど計算時間が急激に増加することを意味する。100ページの本を10分で読めても、200ページの本は40分、300ページの本は90分かかるというように、ページ数の二乗に比例して読む時間が増えていくイメージだ。 この特性により、Mambaは長いコンテキストを扱う際に優れたパフォーマンスを発揮できるという。100万トークン(日本語で約100万語)を超えるデータでも性能が向上し続けることが確認されたという。対照的に、多くのモデルは長いコンテキストで性能が低下する傾向にある。