リアルすぎてキモい 動画AIの進化が止まらない
最近、動画生成AIでバズっていて面白かったのが、実在のリアルな人物が、二次元キャラクターと境界を超えてハグをするという内容の映像です。ある意味、オタクの願望を実現するということで話題になりました。 【もっと写真を見る】
10月14日に、アドビの「Adobe Firefly Video Model」が正式発表されました。単体での動画生成ができるようになる予定ですが、まずはベータ版として、動画編集ソフト「Adobe Premier Pro」に、既存の動画に2秒間追加で動画生成をできる機能が公開されました。この夏以降も、動画生成分野は新しいサービスが次々誕生しており、活発化しています。そしてそれらの統合的な動画編集環境を巡る競争へと範囲が広がろうとしています。前回の記事に続き、動画生成AIの今後を探ります。 ※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください 「二次元の壁を超えた」バズった動画生成AIを試す 最近、動画生成AIでバズっていて面白かったのが、実在のリアルな人物が、二次元キャラクターと境界を超えてハグをするという内容の映像です。ある意味、オタクの願望を実現するということで話題になりました。 The future is now pic.twitter.com/ybtWn13Iti ― Rock solid (@ShitpostRock) October 14, 2024 「えっ、こんなことできるの」ということで、実際に同じような画像が作れないか試してみました。過去に、自分のプロフィール写真をもとに、Midjouneyの画像参照機能を使って生成した似顔絵を使って、3DアバターのVRMのスクリーンショットと合成して、1枚の画像にして動画を生成しました。自分でない自分のような人の画像を使っているので、出来上がりが自分で見ていても、だいぶキモい感じになってしまいましたが(笑)。 ▲作成した動画(12秒)。男性は筆者とはだいぶ違います(笑)。VRMは「VRM Posing Desktop」で撮影している。 初めに、動画生成サービス「Runway Gen3 Alpha Turbo」(前回参照)で、スクリーンショットを指定して生成してみたものの、思ったような効果が得られず、ほとんど動かないという結果でした。どうも、Gen3は、一貫性を維持するために、極端に大きな動きをさせて、動画の画像が崩れるのを避けるようにしてあるようです。VRMデータに男性の画像を追加して、始点と終点を指定するとキレイに決まりましたが、これではバズった動画を作り出せないので、あまり良い結果とは言えないですね。 ▲Gen3 Alpha TurboでVRMの男性キャラと女性キャラで、ハグをさせようしたもの。何度も生成したがうまくハグまで進まない(前半5秒)、ハグの終点画像を作成したところ、ちゃんと自然なハグ画像を生み出せた(後半5秒) バズった動画は、8月に発表された、中国Shengshu Technologyと清華大学が共同開発した動画生成サービス「Vidu」によって作り出されていました。生成結果は4秒と制限があるのですが、そちらで生成してみたところ、うまく行きました。 さらに、動画の終点部分をスクリーンショットとして撮影し、プロンプトに「deep kiss」を追加したりして、さらに4秒作成して、つながった動画にできるようにしています。もちろん、コマ送りにしてみると、同一性の維持が難しく、崩れている部分があります。Viduは面白い動きをする代わりに、個々のカットの一貫性が弱い印象がします。ただ、なんとなく瞬間的には誤魔化されてしまいそうです。 そして、その動画をAdobe Premier Proに読み込み、Firefly Videoの機能を使って終点で2秒延長をしました。1つの動画を延長できるのは1回限りで、時間は2秒との制限があるのですが、延長した状態で一度動画として書き出して、さらにその動画を読み込むと、同じように2秒延長できます。その方法を使えば無限に伸ばすことも原理的には可能です。合計で4秒追加して、全体で12秒というサイズにしてみました。 Firefly Videoの操作自体は簡単で、動画の2秒延長は簡単にできます。新しく追加された「生成拡張(ベータ)」を選択します。それで動画の終了部分を引っ張るだけで、映像2秒を延ばすことができます。いまのところサイズが1280x720など横長2種に固定されており、プロンプトの入力もできないので、無条件で使いやすいというわけではないんですが。 Adobe Firefly Videoの性能を試す Adobe Firefly Videoの性能を測るために、別の動画でも試してみました。前回で取り上げた「階段を下りる動画」でも試してみて、何度も延長を繰り返すとどうなるのかを試してみました。2秒追加を繰り返してどこまで行けるか試してみました。後半になるにつれて、壁の質感がおかしくなり、ついには前進することをやめてしまいました。 ▲階段を降りる動画を無理やり、延長した動画(6秒・動画は倍速)。最初の2秒のみGen3の動画で残りの4秒はFirefly Video。後半になるにつれて質感がおかしくなる やはり同じ方法で廃虚のビルを超えていく映像を6秒間延長してみました。Adobe Fireflyで何度も延長をくりかえしています。6秒くらいまで引っ張ると謎のモノが出てきてしまいます。同じことをGen3 Alpha Turboでやると、一貫性が保たれたまま存在しないビルの向こう側の描写もしっかりとされています。現状のFirefly Videoは本格的な動画生成機能ではなく、あと少し足りない時の補完といった目的として実験的にリリースされていることがわかります。 Premiere Pro ベータ版を試してみた。最大2秒の拡張だけど、一度出力して、再度拡張するを2度繰り返し、6秒拡張した(この画像は最初の4秒がGen3で、後半6秒がFirefly)。存在しないものを予測して描くのは苦手っぽく、完成度はFireflyっぽい #AI動画pic.twitter.com/tvnDltFxN2 ― 新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) October 15, 2024 比較としてRunway Gen3 turboで8秒拡張してみたもの(前半4秒は同じ、後半8秒が追加)。プロンプト指定ができるという強みと、一貫性は、今はGen3が大幅リードしているように思える。ただし、Gen3は一度内部で生成した動画でないと、拡張機能は使えないという制限がある。 pic.twitter.com/fBugx8D3q0 ― 新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) October 15, 2024 最後に、この連載の作例ではおなじみのキャラクター「明日来子」さんがしゃべる動画を作ってみました。 1枚の画像からGen3 Turbo Aplhaを使って連続動画を作成し、さらに合成音声ソフトの「VoicePeak」を使って音声ファイルを作成し、Runway Gen3のリップシンク機能を使い口パクを動画を作成しています。これは元の画像に音声ファイルを解析して、口の動きを追加して動画を作ってくれる機能です。足音なども「ElevenLabs」という効果音AI生成サービスを使っています。それを最後にAdobe Premier Proで結合して動画ファイルにまとめています。 細かなミスはありますが、動画ファイルは音などが組み合わさることでぐっと実在感が増すように思えます。ただ、それぞれのデータを一括管理できないので、作成時は少し編集が手間の部分がありました。 ▲自己紹介をする明日来子さん(35秒)。セリフはChatGPTに画像解析したうえで考えてもらったものを加工している 「これはAI動画です」とわかるようにする必要はあるかも 動画生成各社は、API対応のアナウンスを次々に発表しています。Runwayは9月にAPI機能を発表しました。Viduもサービス開始直後からAPIを使えることを発表しています。一方でAdobe Premier Proは今後、各社のAPIを読み込めるようにすると発表しているため、連携機能強化を打ち出していくのだろうと思います。 動画生成AIのサービス各社は、ウェブ上での動画編集の仕組みを持っておらず、動画はダウンロードして、編集ソフトに読み込むといった方法でしか使えないので、手間が少しかかります。しかし、これが直接、動画編集ソフトの側で各社のAPIを呼び出し、様々に生成できるようになると、さらに使いやすい環境が整ってくるので、今後、使い方も変わってくると予想できます。 しかし、画像たった1枚から、ここまで作れてしまうのはすごいですよね。本格的なAI映画が登場するのも時間の問題ではないでしょうか。一方で、今後さらに精度が上がっていくとも考えられるため、実写的なものほど「これはAI動画です」とわかるようにする必要はあるのかもしれません。 筆者紹介:新清士(しんきよし) 1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。 文● 新清士 編集●ASCII