グーグル、新しい動画生成モデル「Veo 2」を発表
Googleは米国時間12月16日、テキストから動画を生成する「Veo 2」を公開した。現実世界の物理をより正確に反映でき、より詳細で現実感のある動画を人工知能(AI)で生成できるなど、前モデルから大幅に改良されたとGoogleは説明している。 Googleによると、生成できる動画の最大解像度は4Kで、指の数が多いといったハルシネーションなど、動画生成AIのよくある問題に対処できる。人間の投票による評価では、「Sora Turbo」「Kiling v1.5」「Meta Movie Gen」といった主要動画生成モデルと比較して、Veo 2が全体のパフォーマンスとプロンプトへの忠実度で最高の評価を得た。 Veo 2は、具体的なジャンル、レンズ、アングルなど映画撮影技術の用語も理解する。例えば、「shallow depth of field(被写界深度を浅くする)」と指示されたVeo 2は、被写体の背景をぼかしてその効果を生み出すのだと理解する。次の動画は「35mmレンズを使い、Kodakのフィルム『PORTRA 400』で撮影」と具体的に指示した場面から作成されたものだ。 Veo 2は一般公開されており、「Google Labs」内の「VideoFX」で利用できる。早期利用の順番待ちリストへの登録フォームでは、年齢、氏名、居住地、関連する作品、どのようにして知ったかなどを入力する。Googleによると、申請は申込み順に審査していくという。 Googleは今回、「より鮮やかで構図がいい」画像を生成するという画像生成モデル「Imagen 3」の改良版も発表した。Googleによると、改良モデルはこれまでよりも多様なスタイルの生成に対応しており、出力画像のプロンプトへの忠実度と、細部とテクスチャーの豊かさが向上している。 改良されたImagen 3は、12月16日からGoogle Labsの「ImageFX」経由で順次公開されている。VideoFXと異なり、こちらは順番待ちリストへの登録が必要ない。Imagen 3はこれまでのバージョンもすでに非常に能力が高く、米ZDNETの2024年のまとめでは、最も優秀な画像生成AIと評価された。 最後になるが、Googleは今回、新たな試みである「Whisk」も発表した。同じくGoogle Labsから利用できる。Whiskは、画像を作成して(あるいは自作の画像を入力して)から、ぬいぐるみ、ピンバッジ、ステッカーなど、スタイルを指定して新たな画像に作りかえることができる。Imagen 3と「Gemini」が使われており、Geminiで画像の詳細なキャプションを作成し、それをImagen 3に読み込ませて最終的な画像を生成する。 この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。