100万トークンのコンテキストウィンドウ、グーグル「Gemini1.5 Flash」 その実力とは?
「Gemini 1.5 Pro」の強化も発表される
Googleは、「Gemini 1.5 Flash」の発表と同時に、Geminiの高性能モデル「Gemini 1.5 Pro」のコンテキストウィンドウが、これまでの100万トークンから、2倍の200万トークンに強化されることも明らかにした。 「Gemini 1.5 Pro」 は、同社の機械学習のフルマネージド型プラットフォーム「Vertex AI」を含む Google Cloudサービスに統合されており、企業がAI駆動型アプリケーションを構築する際に活用できる。 35の言語に対応しているこの新しいモデルでは、ローカル推論、計画、画像理解もこれまでより、さらに向上しているようだ。
素早さに長けた「Gemini 1.5 Flash」、複雑なタスク向けの「Gemini 1.5 Pro」
プログラミングコード生成や物理、化学、生物学の専門家が作成した質問に回答するGPQAタスクにおいてほとんど同レベルの精度を誇り、どちらもテキスト、画像、音声、ビデオなど複数のソースからの情報を組み合わせて質問に回答できるマルチモーダルなGoogle発AIの最新モデル「Gemini 1.5 Flash」と「Gemini 1.5 Pro」だが、この2つのモデルには顕著な違いがある。 Googleの発表によると、「Gemini 1.5 Flash」は出力速度を重視するユーザー向けであるのに対し、「Gemini 1.5 Pro」は、より大規模で複雑なタスクに適しているとのことだ。 Google Labs担当副社長のJosh Woodward氏は、レイテンシ(リクエストが処理されるまでの時間的遅延を表す)の低さが重要となる、速度が要求されるタスクに対処したい場合は、「Gemini 1.5 Flash」を使用するべきだと語る。 一方、「Gemini 1.5 Pro」は、「より一般的または複雑で、多くの場合、複数ステップを含む推論タスク」向けだと説明した。
より長い、より膨大な情報の処理が可能な「Gemini 1.5 Pro」
また、すでに最大100万トークンの大規模なコンテキスト ウィンドウを備えており、さらに今回200万トークンへの拡張が発表された「Gemini 1.5 Pro」は、長い文章や書籍、コード、ビデオの分析能力において強みがある。 Googleによると、このモデルでは複数の大きな文書(合計1,500ページ)や100件の電子メール、1時間のビデオコンテンツや30,000行を超えるコードベースを取り扱うことが可能とのことだ。 実際のユースケースとしては、賃貸契約書のペットに関する部分の詳細を要約して把握したり、複数の長い研究論文の主要な議論を比較したりするなど、密度の高い文書に関する回答や洞察を素早く得る必要があるケースが示された。 Googleの親会社であるAlphabet IncのCEO、サンダー・ピチャイ氏は、「Gemini 1.5 Pro」について「これまでのどの基礎モデルよりも長いコンテキストウィンドウ」と記者会見で述べており、親がGeminiに子供の学校からの最近のメールをすべて要約するように依頼する例を挙げている。