AI動画の品質が仕事に使えるレベルになってきた
Luma AIが6月12日に公開した動画生成AIサービス「Dream Machine」が、月に無料で30回まで試せることもあり、大きな話題となっています。 【もっと写真を見る】
Luma AIが6月12日に公開した動画生成AIサービス「Dream Machine」が、月に無料で30回まで試せることもあって、大きな話題となっています(「ついに来た! 無料で試せる動画生成AI『Luma Dream Machine』」参照)。ただ、技術情報は出ておらず、どういう関係や経緯で出しているかは一切不明です。 ※記事の配信先によっては動画や図版がうまく表示されないことがあります。その場合はASCII.jp掲載の記事をご覧ください 手軽に高品質な動画が生成できる「Luma AI」のサービス Luma AIはこの連載でも何回か紹介してきたように、大量の写真から3Dモデルを生成するサービスからスタートし、昨年12月には3Dモデル生成サービス「Genie」で参入しているAIスタートアップ企業です(連載第41回「3Dスキャンの進化がすごい」参照)。生成AIの3D化技術で先行していることから、業界から注目を集めていました。ただ、3Dモデル化サービスについては、クオリティが競合に比べて上がっておらず、停滞している印象がありました。ところが、事前予告なしに非常に高品質な動画生成AIを発表して、「これはなんだ!?」とみんなが驚愕したという流れです。 Dream Machineの強さは、何よりも品質の高さです。プロンプトだけでも画像を生成することができますが、画像を読み込ませると手軽に高品質な動画を作れるんですね。生成できる動画は5秒間と限られてはいるものの、これまでの画像生成AIサービスと比べて品質の高い動画が2~3分で生成されます。よくあるのは、Midjourneyなどの画像生成サービスで作成した画像を読み込ませて動画を生成するというもの。今ではあまりの人気ぶりに、無料モードでの利用は数時間待たされるのが当たり前にもなっていますが。 ~ 新世紀への渇望 ~ 新しい時代が幕を開けた。私たちは生まれ変わり、技術の波に乗って進化を遂げる。過去を振り返ることなく未来へ向かい、絶え間なく適応し続けていく。#LumaDreamMachine@LumaLabsAI#生成AIpic.twitter.com/iCY5OWrKeS ― Kaku Drop 架空飴 (@KakuDrop) June 12, 2024 本職が映像作家だというKaku Drop 架空飴さんも、さっそくDream Machineを使った動画をアップロードしているひとりです。生成した動画のうち使えるパートをつないで動画を作成したようですが、品質の高い画像の生成に成功しています。ただ、実際のところ、どのような動画が生み出されるのかは、完全にランダムで生成が完了するまでわかりません。そのため、品質の良い動画を作成するには相当数の試行錯誤が必要になります。実際に筆者も試したのですが、人物がまるで違うものに変わってしまったり、おかしな腕や指が出てきたり、まったく動かなかったりと、ハズレに当たるような動画が連発されました。業務に本格的に使えるレベルの動画を作るには相当数の試行錯誤が必要になるのは間違いありません。 Kaku Drop 架空飴さんも、この動画を作成するために320回の試行錯誤をしたと明らかにされています。月プランはスタンダード(月30ドル)で150回、プロ(月100ドル)では430回という価格体系なので、品質を求めるとプロプランでも足りない試行回数が必要ということになります。 品質の違いは「Stable Diffusion」のバージョン違い? 2024年2月、OpenAIがそれまでの常識をひっくり返すレベルの動画生成AI「Sora」を発表したことで、動画生成AI扱う企業はSoraにどう追いつくのかという新たな競争段階に入りました。OpenAIはSoraを年内にリリースするとしていますが、YouTubeの映像などを学習に使っているのではないかとの指摘もあり、権利問題を抱えている可能性があることから、慎重に用意を進めているようで、今のところどのようにいつから公開するのかを明らかにしていません。そうすると他社は、Soraがリリースされるまでにどれだけ勝負できるのかという状況になっています。 OpenAIの競争相手としては「Runway」が最大の既存サービスでした。そのRunwayも6月17日に突然「Runway Gen-3 Alpha」のリリースを出しています。サービス開始時期など踏み込んだ情報はまだ発表されていないので、想像するしかありませんが、Luma AIにユーザーが流れるのをおさえたいという判断からの発表でしょう。発表されたデモ動画を見ても、Soraを意識して準備が進められていたことが感じられます。RunwayはStability AIと共同でStable Diffusion v1.5(SD 1.5)を開発していましたが、後にケンカ別れをした会社です。Runwayは静止画よりもクラウドでの動画生成AIシリーズに注力することで、新しい市場を開拓してきています。 Introducing Gen-3 Alpha: Runway’s new base model for video generation. Gen-3 Alpha can create highly detailed videos with complex scene changes, a wide range of cinematic choices, and detailed art directions.https://t.co/YQNE3eqoWf (1/10) pic.twitter.com/VjEG2ocLZ8 ― Runway (@runwayml) June 17, 2024 詳しい技術情報は公開されていませんが、おそらくRunwayの動画生成AIシリーズは、SD 1.5を拡張したものではないかと推測できます。Runway Gen-3の動画をよく観察すると、SD 1.5の特有のノイズが画像に出ているように見受けられ、これまでの技術を拡張しているものではないかと考えられます。SD 1.5の512x512の画像で学習しているために、細かいところがつぶれているように見えるのです。このSD 1.5の限界は後発のPika Labsの動画にも感じられます。どうしても、画像がチラチラする感じで微妙に潰れている印象を受けます。 Have you tried our image-to-video model lately? We’ve made some improvements. Let us know what you think! pic.twitter.com/14hAZvqm7n ― Pika (@pika_labs) June 2, 2024 一方、OpenAIのSoraは、DALL·E 3をベースモデルとして学習させているとみられるため、比較するとGen-3は画質が劣っているように見えます。ただし一部のユーザーには先行公開が始まっているようで、評価も上々のようです。実際にリリースされてから、よりシビアに品質比較がされることになりそうです。 I've had early access to Gen 3 of @runwayml for 2 hours now, and I can already confirm it's an absolute beast! Here are my top 7 creations and their prompts 👇 pic.twitter.com/eSatTP96Sp ― TechHalla (@techhalla) June 28, 2024 Luma Dream Machineは「Stable Diffusion XL」ベースか 一方で、Dream Machineで生成した動画には、v1.5系の特有のノイズがなく、クリアな画像が出ています。では、何をベースモデルに使ったのかという疑問が湧いてきます。Luma AIが独自のベースモデルを構築した可能性はあるのですが、ベースモデルはありものを使った可能性が高いと考えています。完全に私の仮説なので、合っている可能性は保証できないのですが、Dream Machineは、SD 1.5ではなくStable Diffusion XL(SDXL)ベースなのではないかと推測しています。SDXLは2024年8月にリリースされ、ライセンス上、他社の利用でも、制限がありません。PikaLabが、SD 1.5系を使って、後発で参入できたのと同じ状況にあったと言えます。 逆に言うと、SDXLのリリース直後は、新規に参入する企業にとって、動画の学習を開始するには千載一遇のチャンスだったのではないかと。そう考えると、美しさの理由も説明できます。SDXLは学習画像のベースサイズが1024×1024と解像度が高く、高画質で出力できます。2023年秋ごろから動画の学習を開始したと考えると、ある程度の品質が担保できるほどの生成が可能になり、投入できたのがそれから約半年後だったと考えると辻褄が合いそうに思えます。Luma AIはベースモデルや学習データなどの技術情報については沈黙しているので、証明はできないのですが。 技術情報を公開しないのは、発信すると裁判に巻き込まれたり、不利になるリスクも念頭に置いているものと思われます。裁判を抱える大手IT企業は学習元の問題について「フェアユース」で押し切ろうとしているため、その結果次第で乗り切れると読んでサービスに踏み切ったようにも見えます。よく「先行者利益」と言われますが、動画生成AIの場合は、SDXLの登場により、あとから来た方が有利という状況が起きたのではないかとも考えられます。SD 1.5ではない高品質なベースモデルを最初から使うことで、学習時にレガシーモデルを引っ張る必要がないことが有利に働いた可能性があります。 Luma AIがもうひとつうまいと感じるのは、2Dアニメをよく学習させていると思われるところです。日本のなかでも大きく話題になった理由のひとつがアニメ系に強いことです。Soraのデモには、今のところアニメ系の動画は公開されていません。他のサービスでもアニメ系はあまりうまくないことは知られていた点でした。そこでもうまく差別化を狙ってきました。 🥞♀Luma AIで上手くいけばlive2d的な動画ができる pic.twitter.com/2cqkn7NUiX ― すずか東3ガ22b (@suzuka00225644) June 14, 2024 アニメの「中割」のような効果、すでに納品に使ったケースも さらに、6月28日に「キーフレーム」という新機能を追加しました。これは始点と終点となる画像をそれぞれ指定することによって、生成される動画がそれに合わせて生成されるというものです。 Keyframes have arrived within Dream Machine! Start and end keyframes give you narrative control, while text instructions guide the journey. Change lighting and seasons, control perspectives, morph subjects, and create impossible transitions! All in #LumaDreamMachine 🧵1/9 pic.twitter.com/fbOXcxUTuJ ― Luma AI (@LumaLabsAI) June 27, 2024 この効果は大きく、画像のランダムに変化する度合いをコントロールできるようになった度合いが高まりました。例えば、似た顔の画像を2枚指定することにより、生成された画像がうまく生み出されると、自然な変化に見えます。もちろんこれも生成結果はランダムなので、完全にはコントロールできず、構図が異なった画像の場合にはまったくうまく出せないということも起きます。それでも、1枚で試行回数をひたすら増やしてたまたまいい出力を得るというものよりも、はるかに有効な動画が出力できる可能性が高まりました。 #LumaAI#DreamMachine の新機能を早速試してみた。最初と最後が、指定した画像になっている。途中、別の人になったりしているけど、うまくつなぐと、コントロールできる度合いが増しそうな気がする。 pic.twitter.com/hQdbZmTlyD ― 新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) June 28, 2024 アニメ系では、うまくつなぐと、アニメの中割りを生み出してくれるような動画が生成できることがわかってきています。自分のイラストを動かしてみたいという人たちが、様々な生成を試みはじめています。 これはAnimeteDiffなどで研究されてきたControlNetと組み合わせて動画生成を制御する方法が応用されていると予想されています。Soraのような複雑な学習方法を取らなくても、既存の動画生成AIの学習法を拡張していくことでも品質の高い画像が作れることがわかっただけでも、大きな可能性を示しています。 DALLE3で作った差分で表情アニメのテスト Enhance promptを外して、2つの画像共通のプロンプトで構図を固定するとうまくいく印象です#DreamMachinepic.twitter.com/38qBih6yJF ― TDS (@TDS_95514874) June 29, 2024 Dream MachineはUIもシンプルで迷いようがなく、初めは無料で誰でも手軽に高品質なAI生成動画を作れることから、すでにXやTikTokなどのショート動画に強いSNSでも流行の兆しを見せています。また、動画制作を事業としている人のなかでも納品物に使ったという報告が見られています。動画生成AIはなかなか品質が出ない上に、使いにくかったという時代も急激に変わっていこうとしています。 筆者紹介:新清士(しんきよし) 1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。 文● 新清士 編集●ASCII