グーグル、現実に近づいた動画生成AIモデル「Veo 2」 4Kに対応
Googleは16日(米国時間)、動画生成AIの「Veo 2」を発表した。最大4K解像度で、数分間の動画をテキストプロンプトなどから生成できるようになる。 【この記事に関する別の画像を見る】 OpenAIのSoraや、RunwayのGen-3など、動画生成AIが注目されているが、そのGoogle版といえる動画生成AIモデルが「Veo 2」となる。 Veoからのバージョンアップでは、4Kまでの高画質出力に対応したほか、現実世界の物理現象や人の動き、表情への理解を向上し、よりリアルな表現を可能とした。また、映画制作の文法を理解し、様々な表現に対応する。例えば、「シーンの中央を滑るように移動するローアングルのトラッキングショット」や「顕微鏡を覗く科学者の顔のクローズアップショット」などのプロンプトの指示に応じて動画を生成する。また、「18mmレンズ」と指定すれば、18mmレンズ風の広角ショットを作成。被写界深度の調整などにも応じる。 mp4対応のブラウザで閲覧してください 今回、Veo 2の機能をGoogle Labsの動画生成ツール「VideoFX」に導入。より多くのユーザーが利用できるようになる。また、2025年にはYouTube Shortsや他の製品にも拡大する。 なお、Veo 2の出力にはSynthID ウォーターマークが含まれており、AI生成であることを識別可能とする。 Today, we’re announcing Veo 2: our state-of-the-art video generation model which produces realistic, high-quality clips from text or image prompts. 🎥 We’re also releasing an improved version of our text-to-image model, Imagen 3 - available to use in ImageFX through… pic.twitter.com/h6ejHaMUM4 ― Google DeepMind (@GoogleDeepMind) December 16, 2024 ■ 画像をリミックスする「Whisk」も発表 また、画像生成AIモデルの「Imagen 3」も改良し、より明るく優れた構図の画像を生成できるようになる。Imagen 3もImageFXで100カ国以上を対象に展開開始する。 さらにGoogle Labsでは、Whiskとよぶ新たなツールを発表。画像を入力し、テーマやシーン、スタイルを伝えて、画像を“リミックス”する機能となる。Imagen 3モデルとGeminiのビジュアル理解の機能などを活用し、実現する。Whiskは16日から米国で提供開始する。
Impress Watch,臼田勤哉