中国ベンチャーの動画生成AI、4K画質で巨大のショートドラマ市場に挑む
OpenAIの動画生成AI「Sora」の登場は、AI動画業界に火をつけた。 英Stability.AI はすぐさま「Stable Video Diffusion」のベータ版を公開し、米Pika Labsも口の動きに音声を合わせるリップシンクが可能な「Lip Sync」と、コンテンツの内容に応じて自動で音声を生成する機能を直ちに発表した。またイスラエルの「Lightriks」が発表した「LTX Studio」は、動画生成・編集・ナレーションまでをオールインワンで可能にする映画製作プラットフォームというこれまでになかったスタイルだ。 動画や画像を見る 中国の企業も続々とこれに続いている。 各種のAI技術開発に取り組む「七火山科技(Seven Volcanoes)」は3月5日のカンファレンスで4K画質の生成動画を上映し、参加者からは驚嘆の声があがった。使用された動画生成AIの「Etna」は、動画の長さを15秒に伸ばしただけでなく、60fpsという超高フレームレートを実現、動画をより滑らかにし、視聴体験を向上させた。 Etnaはすでに公開されている他のモデルと比べ、動画の長さ、解像度、いきいきとしたディテール、言語理解度のいずれもが勝っている。 テキストによる動画生成にとって非常に重要なのがテキストプロンプトだ。例えばSoraの場合、キャラクターの動きや人物設定、役柄、さらには表現してほしい感情や雰囲気までプロンプトに含める。テキストプロンプトを入念に作りこめば、期待していたとおりの動画を生成することができる。 他のモデルと同様、Etnaを支えるアーキテクチャは、入力するテキストに対する深い理解に重点を置いている。Soraの成功を参考に、Etnaはテキストの情報をより正確に捉えて動画に変換できるようになった。こうして生成された動画はテキストの意図に忠実であるだけでなく、細かな感情や情景を巧みに表現するものになる。