「登場即ライバル動画生成AI死亡」ではなかった。使ってわかったSoraの品質と限界(CloseBox)
人気のためアカウント作成ができない状態が続くSoraですが、筆者はサービスに加入できたので試してみました。 【この記事の他の写真を見る】 1080p、20秒という、業界最高スペックの動画生成AIとあって、さすがのクォリティとの声がありますが、謳い文句とは異なる部分もあり、触ってみた感想を、実例を示しながら述べていきます。 なお、筆者は月額200ドル(約3万円)のChatGPT Proプランに加入したので、Relax modeと呼ばれるモードで、Sora動画を無制限に生成できます。 人物のi2vは利用者制限中。うまくいくと素晴らしい Soraは、基本的に2つのモードで動画を生成します。まず、画面に映るものと動きをテキスト(プロンプト)で記述し生成するText to Video。 例えば、「Gigantic robot is fighting against monsters attacking people in Tokyo downtown」というプロンプトを記述して生成すると、次のような動画が出来上がります。 こんなシンプルなプロンプトでも、なかなか迫力のある映像が生まれました。 人物の歩行がちゃんとしているかというのも気になっていたので、チェックしてみました。 一定時間以上歩くと、テンポや左右に踏み出しに乱れが生じているのがわかります。これは、他のAI動画と同様。いきなりライバルを置いてけぼりにするほどの進歩ではないようです。 Soraは、テキストプロンプトで指定するText to Videoだけでなく、画像や写真を添付し、プロンプトを併用するImage to Video(i2v)も可能。 うまく行ったときの人物動画は素晴らしいです。 筆者の動画生成はi2vがメインなので、本人性を維持したサービスはとてもありがたいです。 1080pで20秒の動画は作れない OpenAIの説明でわかりにくいのが、最高解像度が1080pで、長さは20秒まで可能だというところ。 これだと、1080p解像度で20秒まで行けるのかと思ってしまいます。ところが、解像度が高くなれば長さが短くなるという、言われてみれば当然の仕様となっていました。 つまり、20秒の動画を生成するためには、720pである必要があるのです。1080pにすると、長さが最大10秒と、短くなってしまいます。これは、実際に使ってみないとわからないところでした。 右下の、1080pで20sが2000 creditsとあるのは、少なくとも現時点ではサポートされていない組み合わせなのです。 720pであれば、Runway、Vidu、KLING、Luma Dream Machineでもサポートしています。1クリップで20秒というのはたしかに長いですが、Runwayは10秒ずつ、最長で40秒までの延長もできるので、圧倒的な差というわけではありません。 さらに、RunwayのEdit Video機能を使えば、再生スピードを4分の3まで落とすことで56秒、1分近くまで尺を伸ばすことが可能なのです。 多くの動画生成AIのフレームレートが24FPSなのに対し、Soraは30FPSと高いことにも注意が必要です(混在させる場合)。 また、20秒という長時間で一貫性を維持するのは、特に人物がメインである場合には難しいのですが、それはSoraも例外でないということがわかります。 別人化現象が頻発する Soraはうまくいくときの人物の一貫性はかなり高いのですが、途中でガラッと別人に、しかも日本人のはずが明らかに欧米人化してしまうことがよくあります。 ただ、KLINGやVidu、Hailuoなどの中国製動画生成AIほどではないですが、Luma Dream Machineよりは明らかに上。Japaneseと指定すれば、Runwayと並ぶくらいには欧米化現象は抑えられるようです。 人物のImage to Videoは生成できないことが多い Soraでは現在、人物を含む画像をアップロードしてImage to Videoをすることを制限しています。少数のユーザーにはこの機能を開放しており、筆者は運良くその恩恵に預かることができています。 メディアをアップロードする際には次のような制限が課せられます。 本人の同意のない人物、または18歳未満の人物の画像をアップロードしてはなりません。 モデレーションはさらに厳格で、明らかに成人している画像であっても、レギュレーション違反だと生成できないこともしばしばです。 シンプルなミュージックビデオを作ってみた SoraのImage to Videoを使いました。Sunoは妻音源とりちゃんペルソナ、Imageの元画像はHeyGenで生成。同時に生成された2つのバリエーション、合計4つの20秒クリップを繋ぎ合わせただけです。 なかなか品質高いなと自画自賛。こういう場合には向いています。 これまでみてきたところ、たしかに品質が良いところは多いけれども、他のAI動画生成サービスが不要になるかというと、そこまでは行っていない印象です。リップシンクやカメラコントロールもないですし。 せっかく毎月3万円払うのですから、これ一本で行かせてもらいたいところではありますが、現時点では主にRunwayとの併用になりそうです。 SoraにはStoryboardという、さらに細かな編集ができるおもしろい機能があるのですが、それはまた次回ということで。
TechnoEdge 松尾公也