100万トークンのコンテキストウィンドウ、グーグル「Gemini1.5 Flash」 その実力とは?
グーグルが毎年恒例の開発者会議で、高速で狭い範囲の高頻度タスクに特化したマルチモーダルLLMモデル「Gemini 1.5 Flash」を発表した。 GoogleのAI部門の最大の競合といえばチャットGPTを開発しているOpenAIだが、OpenAIが同社の最新AIモデル「GPT-4o」を発表した24時間後に、Googleの最新AI「Gemini 1.5 Flash」も公開され、AIモデルの進化競争は過熱している。 GoogleのAIモデルは多様なラインナップが揃えられており、開発者はユースケースに応じて異なるモデル/サイズを選択できるのが特徴だが、その最新AI「Gemini 1.5 Flash」の特徴と性能について、他のGeminiモデルとの比較をユースケース交えて紹介する。
速度と効率性重視の最新モデル「Gemini 1.5 Flash」
言語モデルが応答を生成する際に、どれだけの情報をどの程度の期間、記憶として保持できるかを示す「コンテキストウィンドウ」。 その最小の構成要素である単語、画像、動画の一部は「トークン」と呼ばれるが、Google AI Studio内のGemini APIを通じて公開プレビュー版が利用できるようになっているGoogleの最新AIモデル「Gemini 1.5 Flash」のコンテキストウィンドウは100万トークンと、「Gemini 1.0」の最大32,000トークンから大幅に増加している。 「速度」と「効率性」重視とされているこの新モデルでは、画像、音声、テキストなど多様なデータを統合的に処理する「マルチモーダル能力」で処理可能な高い性能をもっていながらも、これまでのモデルの10分の1のコストで利用できるコストパフォーマンスの高さが売りだ。 ビジネスシーンにおいては、会話を素早く要約したり、画像や動画にキャプションを付けたり、長い文書や大規模な図表からデータを抽出したりといったタスクへの活用が期待されている。