期待の3D生成AI「Stable Video 3D」(SV3D)発表。動画から3Dモデル生成、現状できることと今後の展望

3/21(木) 11:05配信

期待の3D生成AI「Stable Video 3D」(SV3D)発表

Stable Diffusionを提供するStability AIは、高品質なマルチビュー推定と3Dメッシュの生成を行う新たなモデル「Stable Video 3D」（SV3D）を発表しました。生成AIグラビア写真集ただし現時点で公開されているのは、画像から多角度の姿を推定するマルチビュー推定部分のみです。現状ではまだその全貌がよく知られていないので、ローカルで試せるようになる前に、その概要と技術的な構成についてまとめました。ゲーム開発者の立場からの展望も考えます。

SV3Dとは？

3D生成の大きな流れは、動画の生成に似た状況にあります。ひとつはテキストによる指示から3Dオブジェクトを生成するもの。もうひとつは画像を元にそれを3D化するものです。 SV3Dは後者で、入力した画像からその被写体の複数の角度の姿を推定、つまり画像からのマルチビュー推定を実行します。そして推定した姿を元に3Dデータを生成する仕組みです。 SV3Dのライセンスは、ここ最近のStability AIのプロダクト同様に、研究目的等非商用なら無償・商用利用にはStablity AIのMemberships加入が必要です。

マルチビュー推定

SV3Dは、同じくStability AIが公開している動画生成モデルの「Stable Video Diffusion」（SVD）をベースに開発されました。 SVDのモデルをカメラ姿勢を条件としてファインチューニングしており、動画生成で重要な時間方向の一貫性を、空間的な一貫性に応用しています。 SVDの発表時点ですでに、そのマルチビュー推定能力の高さについて言及しており、SV3Dはそれを具体化した技術です。基本的な原理は画像生成と同じで、大量の画像や動画を学習して潜在空間を構築しますが、カメラ位置も考慮します。入力画像とカメラの位置を与えて潜在空間を探索し、その結果を画像に出力することで、入力画像の異なる角度の姿を推定できるのです。またベースが動画用のSVDであることで、画像生成とは異なり高い一貫性を担保しています。学習に用いたデータセットは、Objaverseという3Dモデル集を用いています。ただしObjaverseは商用利用禁止のモデルなどを多数含むため、ここからCC-BYライセンスのものだけを抜粋しています。これはやはりStability AIが共同開発したTripoSRでも同様の方針でした。現在公開されているモデルには「SV3D_u」と「SV3D_p」の2種類あります。SV3D_uは画像を1枚入力すると、アナログレコードプレーヤーのターンテーブルに乗せて回転させるような、いわゆるターンテーブル動画を生成します。SV3D_pは推定するカメラの軌道を任意に指定可能です。 uよりpの方がより正確な3D化に有利な角度からの姿を推定できますが、角度が任意の分、破綻するケースも多いようです。

次ページは：3Dメッシュの生成

1/3ページ

Yahoo!ニュース

期待の3D生成AI「Stable Video 3D」(SV3D)発表。動画から3Dモデル生成、現状できることと今後の展望

SV3Dとは？

マルチビュー推定

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）