コンテキストウィンドウとは何か?グーグルとメタが本気、生成AI「強化」のカギ?
拡張による「3つ」のメリット
コンテキストウィンドウを拡張できれば、LLMの性能と応用可能性が大きく広がる。 第一に、より長い文章を一度に処理できるようになる。たとえば、数千ページに及ぶ長大な文書を要約したり、数万行のソースコードを解析したりといったタスクが可能になるのだ。 第二に、複数の情報源を組み合わせて活用できるようになる。LLMに文法書と用例を与えれば、わずか200人しか話者がいない「カラマン語」を、初心者と同レベルで英語に翻訳できるようになるとされる。 第三に、必要な情報をその場で学習し、文脈に応じて知識を使い分けられるようになる。グーグルの研究チームは、45分の映画「キートンの探偵学入門」をLLMに「視聴」させ、内容に関する質問に正確に答えさせることに成功した。 コンテキストウィンドウの拡張は、カスタムアプリケーションの開発にも大きな影響を与える。これまでは、特定のタスク向けにLLMを最適化するには、ファインチューニングやRAG(Retrieval Augmented Generation)など、高度なエンジニアリングが必要だった。しかし、無限大のコンテキストウィンドウを持つLLMであれば、必要な情報をすべてプロンプトに入力し、最も関連性の高い部分を選択させることが理論上可能になる。 これにより、開発者や企業は素早くアプリケーションのプロトタイプを作成し、アイデアを検証できるようになるなど、PoC(Proof of Concept)段階での障壁が大幅に下がることが期待できる。もちろん、実際に製品化する際は、コストや速度、精度などを最適化する必要がある。
Transformerの課題を解決するメタの「新技術」
こうした中、グーグルとメタが、LLMのコンテキストウィンドウを大幅に拡張する新たな手法を相次いで発表した。 グーグルの研究チームは今年4月、「Infini-attention」と呼ばれる技術を発表した。これは、LLMのアーキテクチャを再構成することで、メモリや計算量を一定に保ちながら、コンテキストウィンドウを事実上「無限」に拡張できるというものだ。 実験では、100万トークンを超える長大な文章に対しても、品質を維持できることが示された。50万トークンの文章のサマリ生成タスクにおいても、ほかの長大コンテキストウィンドウアプローチを超える能力を発揮した。理論的には、同じ手法をさらに大きなスケールに適用できるという。 一方、メタと南カリフォルニア大学の研究者らも今年4月に、Transformerアーキテクチャの根本的な課題を解決する新モデル「Megalodon」を発表した。 Megalodonは、2022年に提案されたMEGA(Moving Average Equipped Gated Attention)という手法をベースとしている。MEGAは、Transformerの注意機構(Attention Mechanism)を改良することで、モデルの複雑さを大幅に削減、膨大なメモリを使わずにコンテキストウィンドウを拡張できるようになった。 研究チームは、70億パラメータのMegalodonモデルを2兆トークンで学習させ、同サイズのTransformerモデルと比較したところ、学習時のPerplexity(モデルの予測精度を示す指標)や各種ベンチマークタスクで優位な数値を示したという。Megalodonは、将来的にTransformerに取って代わる新たなアーキテクチャとして期待されている。ソースコードもオープンソース(MIT License)で公開されており、商用利用にも制限はない。 もっとも、Transformerに代わるアーキテクチャを設計する試みは、Megalodon以外にも数多く存在する。たとえば、AI21 LabsのJambaモデルで採用されている「SSM-Transformer」ハイブリッドアーキテクチャやMITの研究者らが開発した「Liquid Neural Networks」などが存在する。 ただ、これらの新アーキテクチャを実用レベルに高めるには、ハードウェアやソフトウェアのエコシステム整備が不可欠とされる。現時点ではTransformerをベースとした学習・推論ツールが充実しているため、しばらくはTransformerをベースとする開発が進むものと考えられる。