コンテキストウィンドウとは何か?グーグルとメタが本気、生成AI「強化」のカギ?
生成AIに欠かせない大規模言語モデル(LLM)。そのLLMの能力を「強化」させるカギとして、「コンテキストウィンドウ(Context Window)」が注目されている。グーグルやメタも、今年に入りコンテキストウィンドウに関する新技術を相次いで開発して話題を呼んだ。両社が開発した新技術とはどのようなものなのか、そして、そもそもコンテキストウィンドウは生成AIをどう強化できるのかについて解説する。 【詳細な図や写真】テキストのトークン化例(出典:OpenAI)
LLMの性能を左右する「コンテキストウィンドウ」とは
OpenAIやAnthropicなどが開発するLLMが、あらゆる方面で存在感を示している現在。 そのLLMのパフォーマンスを左右する重要な要素の1つとして挙げられるのが、「コンテキストウィンドウ」だ。 コンテキストウィンドウとは、モデルが一度に処理できるトークン数のことを指す。トークンとは、単語、画像、動画の一部分など、モデルが扱う最小単位だ。テキストであれば、英語の場合、100トークン=75ワードほど、日本語の場合、100トークン=100文字ほどとなる。 コンテキストウィンドウが大きいほど、モデルはより長い文章やより大量の情報を一度に処理できるようになる。これにより、文脈を深く理解し、整合性の取れた出力を生成できるようになるのだ。 主要なLLMのコンテキストウィンドウサイズを比べてみると、Anthropicの「Claude 3」が最大で20万トークン。OpenAIの「GPT-4 Turbo」が12万8000トークン、グーグルの「Gemini 1.5 Pro」が12万8000トークンとなっている。1年ほど前まで、主要モデルのコンテキストウィンドウが4000トークンほどだったことを考えると、最近のコンテキストウィンドウサイズの拡大は目を見張るものがある。 コンテキストウィンドウは、実質的にプロンプトに入力できる情報量ということになるが、より厳密にいうと、入力トークン、出力トークン、制御(システム)トークンすべてを含む情報量となる。