OpenAI「Sora」残念な離陸 中国勢が飛躍する動画生成AI
OpenAIの動画生成AIサービス「Sora」がようやくサービス開始しました。しかし、Soraのためだけに月額3万円のプラン(ChatGPT Pro)に入る価値があるかと聞かれると、まだ正直言って微妙です。 【もっと写真を見る】
12月9日に、OpenAIの動画生成AIサービス「Sora」がようやくサービス開始しました。2月の発表では動画AIの常識を覆した性能の高さを見せたことで注目を集めていました。しかし、他の動画AIサービスと比較すると、期待されていたほどには圧倒的な優位性を感じるほどではない印象です。発表からの10ヵ月間に他社が猛烈な追い上げを行ってきたためです。Soraは十分に利用するためには月額200ドル(約3万円)の「ChatGPT Pro」プランにアップグレードしないと使用できる回数が非常に限られます。しかし、Soraのためだけに、そのプランに入る価値があるかと聞かれると、今のところは正直言って微妙です。 ※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください 月額20ドル(約3000円)では制約が多い Soraを利用するためには、月額20ドル(約3000円)の「ChatGPT Plus」か、月額200ドル(約3万円)のProプランに加入していることが必須になります。しかし、Plusでできるのは480p(854x480)と720p(1280x720)の画像サイズで、5秒間か10秒間の動画を月50回分の1000ポイント(クレジット)しかもらえません。動画AIを使う上で、50回というのは非常に少ない回数です。1回で思った通りの画像が出ることがまれなため、何度も試行錯誤が必要なため、あっという間に消費してしまうため、お試しに近いものです。 Proプランにおいて、Soraの強みは20秒間の動画を一気に生成できる点です。しかもそれを高画質で作れます。しかし、20秒で作れる動画は720p(1280x720)が限界で、1080p(1920x1080)では10秒間までに制限されています。しかも、高速で生成できるのは480pの5秒間のビデオで約500回のポイント分(1万クレジット)に制限されており、サイズや長さを大きくすると消費ポイントはどんどん高くなります。 ポイントを使い尽くした後も、生成に時間がかかる「リラックスモード」は無制限に使えるとはいえ、ポイントを消費する高速モードとリラックスモードへの切り替え機能もなく、使い勝手が悪いです。そして720p以上の動画はポイント消費が激しく、筆者は50本あまりの動画を生成して、半日で使い切ってしまいました。リラックスモードもそこまで生成速度が遅いというわけではないので、不満が多いというほどではないのですが。 キャラクターやカメラワークが崩れやすい ただ、そうした制約より、現状のSoraで致命的に感じるのは、人物の一貫性の維持が難しいところです。特に、20秒といった長尺の動画を生成すると、10秒ぐらいからはキャラクターの造形が崩れてしまう傾向があります。また、カットを勝手に切り替えてしまうということも頻繁に起こります。ランダム性も非常に高くて、コントロールが難しいと感じます。 描写内容の制限も多いようです。プロンプトに性的な描写を感じさせる文言があったり、特に児童の描写に関連する動画には、他の動画AIと比べて厳しく制限がかかる印象があります。これはSoraの規約にある「明示的な同意なしに、個人の肖像を描写した動画を作成することはできません」という項目と、「18歳未満の児童を含むコンテンツのアップロードは、たとえ児童の許可があっても許可されません」という項目があるためだと思われます。 テキストプロンプトからビデオを生成するt2v(Text-to-Video)では、「ビキニ姿の女性がダンスをする」といった動画を作ることもできたのですが、規約の範囲はかなり厳格にチェックがなされているようです。 ▲「白いビキニ姿のアジア系の若い女性が、砂浜でダンスしている」というプロンプトで、720p 20秒で生成した動画。ところが同じプロントにもかかわらず、生成結果の表示が拒否されることもある。生成後に、不適切な動画と判断されるケースもあるよう。このプロンプトの場合は、表示される確率は60%ぐらい。また、途中でカメラワークが変わったりすることはよくある 激しい動きのある人物は不自然なことが多い また、人物の動きについては、物理学的・解剖学的な正確性は完全からは程遠いです。体操やスキーなどアクティビティの動画を作らせると、不自然な動きが乱発されます。腕や足の数が増えたり、頭の前後が入れ替わったりします。 人体の動きを正確に描写することは、動画AIにとって、今後も難易度が高いものであり続けると考えられますが、Soraでも、その例外ではないようです。 2月の発表時に「Soraがどこまで物理現象を学習しているのか」ということが話題になりましたが、動画から特徴点として学習しているだけで、全体を制御するような物理法則をSoraは確立しているわけではないように見えます。(参考:動画生成AIの常識を破壊した OpenAI「Sora」の衝撃) ▲t2v 720p 20秒で、体操選手を生成してみたもの。途中で、頭、手、足がめちゃくちゃな動きをしている。プロンプトは「オリンピックで、美しいアジアの女性の体操選手が、激しい体操の演技をしている」 月額20ドル(約3000円)は人物i2vもできない さらに、一枚の画像から動画を作成するi2v(Image-to-Video)については、サービス開始直後は、人物について厳しい制限がかけられていました。この連載用に生成したキャラクター「明日来子(アスキコ)さん」の画像を読み込ませて、動画を作ろうとしたのですが、人物が検出されたことを理由に生成を拒否されるという結果でした。アニメ風のキャラクターでさえ、人物が検出されたことを理由に拒否されました。OpenAIは、フェイク動画を作成されることを嫌っていると考えられます。 ただ、i2vで人物を生成できないのは、サービス利用者にしてみると致命的な問題です。AI動画では、t2vよりも、i2vが重要であるという認識が広がっています。t2vでは動画AIの性質上、何が生成されるのかは完全にランダムになります。生成するたびに世界の様子も人物も変わってしまいます。生成した動画をつなげて、一定のストーリーにまとめるには、毎回違う内容の動画では使い物になりません。 動画生成AIの使用方法としては、「Midjounery」などの画像生成AIを使って複数の画像を作り、それをi2vで動画にして、最終的に動画編集ソフトでつなぐという制作方法が一般化しています。そのため、i2vの性能が優れているかどうかが、動画生成AIサービスの評価を決める重要なポイントになっているのです。 ただしその後、Proプランに引き上げたところ、i2vの条件が緩和されました。Plusプランでは拒絶されていた明日来子さんの画像を使ってi2vを生成しても、普通に生成できるようになったのです。Proプランだと条件が変わるのか、記事執筆時にPlusプランを含めて運営方針が変更されたのかは確認ができていません。ただ、i2v自体ができるようになっても、画像がアニメ系のキャラクターの場合、子どもっぽく見えるせいか、他の動画サービスと比べて、生成を拒否される傾向は高いと感じます。 「Sora」の欠点:i2v(画像動画)がダメ Soraのi2vの制御は、他の動画AIに比べてかなり難しい印象です。 多くの動画AIサービスでは、画像に多くのテキストを入力せず、簡単なプロンプトで動かします。LLMで画像を解釈して、ユーザーが入力したプロンプトと合わせてプロンプトを作成し、動画を作るのが一般的です。Soraもその仕組みが入っているようですが、ユーザーが少ないプロンプトしか入力しなかった場合、独自解釈が強くなってしまうようです。 例えば、明日来子さんをi2vにした際に、「日本の街を軽やかな笑顔で歩く日本人女性」と指定したところ、明日来子さんは、途中で服が着物に変わり、街には桜が咲きました。細かい指定なしに、「日本人女性」と入れると着物姿で登場しやすく、「日本の街」とすると満開の桜の姿が出る結果になりやすいため、学習にも偏りがあるように感じられます。 ただし、こうした不必な誤解釈を回避する方法も発見されています。厳密にプロンプトで指定しておくと、その画像から劇的に変化することがなくなるようです。詳しいプロンプトを付けると、独自のプロンプトを膨らませる機能が最小限になると考えられます。 ▲LLMで画像を解析して生成したプロンプトを使っている。「これは、日本の都市の狭い石畳の路地で、黒髪で無表情の若い日本人女性を捉えた写真です。彼女はグレーのスカーフと黒のジャケットを着用しています。彼女は歩いています。背景には、赤と白の看板を含むカラフルな看板のある伝統的な木造建築が写っています。遠くには、黒いコートを着た別の人物が歩いています。空は少し曇っており、シーンに落ち着いたトーンを加えています。(注:原文は英語)」 一方で、空撮画像を動かそうとしてみたら、ピクリとも動かない、あるいは、まったく別のカメラワークに切り替わってしまうということもよく起こります。とにかく、生成の結果が簡単に予測できず、期待した結果を出すのが簡単ではないという印象を受けました。 ▲Fireflyで作成した街上空の画像にドローンが飛んでいるというプロントを追加して、i2v 720p 10秒で生成したところ、最初の画像は完全に無視されてしまい、まったく違ったシーンに切り替わっている 中国MiniMax社の「Hailuo AI」が強い 「Sora」競合の動画生成AIを比べてもみました。筆者が一番品質が良いと感じられたのは、中国MiniMax社の「Hailuo AI(ハイルオAI)」でした。今のところ、Hailuo AIは720p 6秒しか生成できないという制限がありますが、i2vが強く、プロンプトにも柔軟に合わせてくるという特徴があります。 Nijijouney(Midjouneryのアニメ版)で作成した「コーヒーの紙コップを持った少女」のイラスト画像にコーヒーを飲ませるよう「anime girl drink coffee」とシンプルなプロンプトで設定したAI動画を各社のi2vで比較してみます。 Shengshu Technology(勝数科技)と清華大学が共同開発した「Vidu(ビドゥ)」は飲んでくれるものの、絵柄が大きく変わります。中国Kuaishou(快手)社の「Kling AI(クリンAI)」や、定番の米「Runway(ランウェイ)」では飲む動きを見せず、ほぼ動きません。Hailuo AIのみが、元の原画に近い状態を維持したまま飲むことに成功しています。 「Runway」「Hailuo AI」とi2v比較 では、Soraはどうかというと、試行錯誤の上に成功することができました。 まったく違う画像が生成される対策として、先に触れたLLMで画像を解析したプロンプトに「anime girl drink coffee」とつけて生成するという方法をまずは取りました。ところがそれでは途中から違う動画が生成されるという結果になりました(左)。 そこで、次にプロンプトをまったくつけない状態だとどうなるのかを試したところ、まったく動きませんでした(中央)。最後に「anime girl drink coffee」とのみ設定したところ、飲んでくれたという結果になりました(右)。 これは、Soraで、アニメ系の動画を生成しようとすると、有効な方法が実写系と違っている可能性があることを示唆しています。 ▲Soraでi2v 720p 10秒で生成した動画 Hailuo AIの優秀さは、実写で試しても明らかになります。明日来子さんと自販機がある画像で、「女性が自販機のボタンを押す」というプロンプトで、同じように各社比較をやったところ、1回目でボタンを押すという結果を出せたました。一方で、他の動画サービスは、まったく後ろを振り向くことがありませんでした。 ▲Hailuo AIで、1枚の画像から、自販機のボタンを押す動画を作った結果。2回生成しているが、2回とも後ろを向いてボタンを押している。ただし、自販機との距離感は少し狂い気味 では、Soraではどうでしょうか。まず、プロンプトを「自販機に近づいて、ボタンを押す」としてみました。その結果は、別世界に切り替わってしまい自販機も建物も何もかも形状が変わってしまいました(動画の前半)。そこで、今度は画像をLLM解析を行ってプロンプトを作成し、そこに「自販機に近づいて、ボタンを押す」と英文で文頭に追加して、生成してみました(動画の後半)。2度試していますが、後ろを向いて、自販機に近づくところまでは成功しています。明日来子さんと自販機の関係性も正しく出ているように見えます。ただし、ボタンを押すところまでは成功できませんでした。 ▲Soraで、i2v 720p 5秒で明日来子さんが「自販機に近づいてボタンを押す」を実行させようとした動画 Soraのメリット:Remix(リミックス)が強い それでもSoraには、今のところ他社が持っていない優位性が残っています。それは「Remix(リミックス)」という機能です。この機能では、動画を最大1080p動画に変換することができます。10秒までという制限はあるものの、720p以下で作られた画像をディティールアップしながらアップスケールすることができるのです。 筆者も、以前Runwayで作った720pの廃墟動画を、1080pにアップスケールしてみました。変換には3段階あり、強度によって変化の度合いをより大きくしたり、オブジェクトを追加したりできます。元々の動画では、廃墟の中にいる鳥の存在の前後関係が曖昧で、形状も不安定でしたが、Soraを使うことで、はっきりとした形状になり、安定化しています。また、全体的な廃墟のディティールアップがされています。 こうした機能は、AI動画の品質を引き上げるために、大きく貢献するかもしれません。 ▲720pの廃墟動画を1080pに変換したもの。10秒ごとにリミックスモードで生成し、動画編集ソフトで結合している。右下が元の720pの動画 ただ、AI画像のアップスケールサービスを展開しているスペインのMagnific.aiが動画用のアップスケーラーサービス「Clickative AI」のリリースを予告しています。今後、同様に他の動画AIサービスも追従してくることが予想されます。 動画だけならRunway+Hailuo AIがオススメ それでは、今のSoraへのProプランの課金はお勧めできるかというと、正直、積極的には勧めにくいというのが現状の結論です。ポテンシャルは感じるものの、ユーザーインターフェース周りも使いやすいとは言えず、他社サービスに比べて細かいところの使い勝手がまだまだ悪いという印象があります。画像の生成拒否も多いため、特にアニメ系のi2vを目的としているなら、合わない可能性もあります。 そして、何よりも価格が高い。同じ200ドルならば、カメラ設定など様々な機能を持っているRunwayのUnlimitedプラン(95ドル)や、i2VのHailuo AIのUnlimitedプラン(95ドル)を組み合わせたりする方が、お得ではないかと考えます。ただし、動画AIは秋以降、本当に競争が激しい分野なので、2025年にどこが覇権サービスとなっていくのかは、まだはっきりとはわかりません。各サービスにはそれぞれの得意不得意があるので、自分が目指すAI動画に応じて、サービスをうまく選定することが重要になってきます。 もちろん、Proプランは、LLMの「ChatGPT o1」や「o1 Pro mode」が無制限に使えるという大きなメリットがあるので、その利用との組み合わせで考える必要があるでしょう。また、Soraも、年明けにはアップデートもあると予想できますので、今後の展開にも期待したいところです。 筆者紹介:新清士(しんきよし) 1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。 文● 新清士