GoogleのマルチモーダルAI「Gemini」がさらに進化 その詳細に迫る
テキスト、音声、画像、動画など、2つ以上の異なる種類のデータをを理解し、組み合わせて操作できる人工知能(AI)である、Googleのマルチモーダル生成AI「Gemini(ジェミニ)」の最新モデル「Gemini 1.5」が、今年2月15日(米国時間)に発表された。効率性やパフォーマンス、長文推論能力において大幅な進歩を遂げた最先端のAIとして注目されている。 AIチャットボットアシスタント「Bard(現在はGeminiとサービス名称を統一)」の一般公開が昨年発表されてから、およそ一年。GoogleがどのようにしてAIの大幅な進化に取り組み、長文推論や大規模な情報処理の新たな可能性を切り開いたのか、その詳細に迫る。
Google発最新のマルチモーダル生成AI「Gemini 1.5」
Google DeepMindによって開発された大規模言語モデル(LLM)であるGeminiには、性能が高い順に、「Gemini Ultra」「Gemini Pro」「Gemini Nano」の3種類のモデルがある。今回発表された「Gemini 1.5」は、既存の最上位モデル「Gemini 1.0 Ultra」と同等の性能を、より少ない計算リソースで実現できる。 テキストデータを処理する際に使用される基本的な単位は「トークン」と呼ばれる。この「Gemini 1.5」の最大の特徴は、「Gemini 1.0 Pro」 の32,000トークンや、OpenAI のGPT-4 Turboの128,000トークンより格段に多い、最大100万トークン(Gemini 1.5 Proモデル)の情報をインプットできる点だ。 導入段階では128,000トークンから開始されるが、今後、この最大値である100万トークンまで利用可能なプランが提供される計画となっている。
コンテキストウインドウが大きくなることで応答の正確性が向上
このようなトークン数の大幅な増加によって、「Gemini 1.5 Pro」は、「Gemini 1.0 Pro」の処理可能なデータ量の35倍である約700,000ワード、約30,000行、1時間のビデオ、11時間のオーディオのコードを取り込むことができる。 生成AIにおいて、出力を生成する前にデータ(テキストなど)を入力するコンテキストウインドウは、そこに入力可能なデータ量が大きいほど、文脈を正確に理解し、一貫性を保った精度の高い応答が可能になる。このコンテキストウィンドウが小さいモデルは、トピックから応答が脱線してしまうといった問題が発生しやすい。 そのため、MetaやAnthropic、マサチューセッツ工科大学、カーネギーメロン大学などがしのぎを削り、より大きなコンテキストウィンドウを求める研究を進めているが、この「Gemini 1.5 Pro」レベルのコンテキストウィンドウを備えたモデルを商用利用可能にしたのはGoogleが初めてだ。