コンテキストウィンドウとは何か?グーグルとメタが本気、生成AI「強化」のカギ?
有効なトークン数は「公表より少なめ」?
こうしたコンテキストウィンドウ拡張の手法が登場する一方で、GPT-4やClaude 3など、コンテキストウィンドウが10万トークンを超えるモデルにおいて、実際に有効なトークン数は各社が主張するよりも少ないという現状にも目を向ける必要があるだろう。 NVIDIAが2024年4月11日に発表した論文によると、長いコンテキストウィンドウを持つ主要モデルを分析したところ、実際に有効なコンテキストウィンドウは、主張されている長さよりも遥かに短いことが判明したのだ。 たとえば、3万2000トークンのコンテキストウィンドウを持つTogether AIのモデルは、実際に有効となるトークン数が4000のみであることがわかった。このほか、12万8000トークンを謳うGPT-4でも、有効トークン数は半分の6万4000という結果になった。 全般的に、入力トークン数が最大値に近づくほど、LLMのパフォーマンスが大きく下がる傾向が観察された。Together AIの場合、最大値となる3万2000トークンを入力すると、パフォーマンスは40%近く下落するという。GPT-4は、3万2000トークンまでは、実力の93%以上を維持できるが、6万4000トークンで87%、最大値となる12万8000トークンでは、実力の8割ほどしか発揮できない可能性がある。 この論文では、コンテキストサイズを4000から12万8000まで増やしていくと、すべてのモデルで共通して、単にコンテキストからコピーするだけ、慎重に考えようとせずに一方的な思考に陥る、質問に関連するパラグラフを文章中から見つけ出すことが難しい、といった問題が顕在化したと指摘されている。 つまり、コンテキストウィンドウを際限なく広げれば良いというわけではないのだ。LLMの性能を最大化するには、タスクに応じた最適なサイズを見極める必要がある。また、プロンプトエンジニアリングなどの手法を駆使し、限られたコンテキストウィンドウを最大限活用することも重要だろう。 とはいえ、生成AIの性能向上と実用化が加速する中、コンテキストウィンドウの拡張は避けては通れない課題だ。Infini-attentionやMegalodonをはじめとする新技術の登場により、この分野の研究開発はさらに活発化していくだろう。
執筆:細谷 元