Meta Movie Gen発表。文章から音声付き動画を生成、顔写真の人物を既存動画に登場させる活用法も
Metaが、テキストプロンプトから音声付き動画を生成するAIモデル「Movie Gen」を発表した。Movie Genは、通常はテキストプロンプトで生成したい情報を与えて動画を生成するのだが、画像を1枚与えて、それをもとにAI動画を生成することも可能だ。生成する動画は最大16秒間、16コマ/秒というやや半端なものだが、画質はかなり実写のように見え、同様にリアルな音声もついている。 Metaの新ヘッドセット「Quest 3S」は手頃な価格で新規ユーザー獲得を目指す。約4.8万円で10/15発売 MetaのCEO兼会長を務めるマーク・ザッカーバーグ氏は、自身がローマの百人体調に扮しているものを含め、様々なシチュエーションでレッグプレス(太ももから臀部の筋力を鍛えるトレーニング)をしている自分という、個人の趣味丸出しな動画をMovie Genで生成し、Instagramに投稿した。ザッカーバーグ氏は「動画を作成・編集できるMetaの新AIモデルMovieGenを使えば、毎日が脚の日だ。インスタグラムに来年やってくる」と述べている。 当然ながら、Movie GenはジムとCEO以外の映像を生成することも可能で、Metaが発表と共に公開した映像には、IntagramやTikTokでバズっているコビトカバの「ムーデン」にあやかったのか、カバの赤ちゃんが泳いでいるものや、サーフィンをするコアラ、ビクトリア調の衣装を着たペンギン、浮き輪でプールにたゆたうナマケモノなどが公開されている。既存の映像に文章による編集を加えることも可能で、動画は様々なアスペクト比で生成可能とのことだ。 また、既存の映像や静止画からカスタム動画を作成することも可能。たとえば顔写真を1枚与えて、その人物が何かをしている「パーソナライズされた動画」を生成できるという。 Metaはこれらの動画生成機能のために、AIモデルに対してどんなデータセットを与えて強化したのかは詳しく説明せず、「ライセンス取得済みのデータセットと、一般公開されたデータセットの組み合わせでAIモデルを強化した」とだけ述べている。 一方で、この動画生成AIを開発した目的については「ハリウッドで成功したい映画監督志望から、視聴者に向けて楽しく動画を作っているクリエイターまで、誰もがその創造性を高めるのに役立つツールにアクセスできるべきだ」としつつ、「生成AIはアーティストやアニメーターの仕事に取って代わるものではないことに注意が必要だ 」と付け加えて業界からの反発を牽制している。 Meta Genの音声生成AIモデルは、動画およびオプションのテキストプロンプトを与えることで機能し、周囲環境の音、映像に同期した効果音、BGMなどを含めた最大45秒までの「高品質かつ忠実度の高いオーディオ」を生成できるとしている。 Metaの最高製品責任者クリス・コックス氏 はThreadsに「(Movie Genは)まだ高価で、生成に時間がかかりすぎるため製品としてリリースする準備ができていない。 しかしそれがどのようなものか明らかになったため、現状を共有したいと思った」と投稿した。 Movie Genに競合する動画生成AIモデルとしては、OpenAIが数か月前に発表したSoraがあるが、こちらもまだテスト段階で、ユーザーには公開されていない。 OpenAI、テキストからリアルな動画を生成する新AI「Sora」を発表 Source: Meta(1), (2) via:
Munenori Taniguchi