期待の3D生成AI「Stable Video 3D」(SV3D)発表。動画から3Dモデル生成、現状できることと今後の展望
Stable Diffusionを提供するStability AIは、高品質なマルチビュー推定と3Dメッシュの生成を行う新たなモデル「Stable Video 3D」(SV3D)を発表しました。 生成AIグラビア写真集 ただし現時点で公開されているのは、画像から多角度の姿を推定するマルチビュー推定部分のみです。 現状ではまだその全貌がよく知られていないので、ローカルで試せるようになる前に、その概要と技術的な構成についてまとめました。ゲーム開発者の立場からの展望も考えます。
SV3Dとは?
3D生成の大きな流れは、動画の生成に似た状況にあります。ひとつはテキストによる指示から3Dオブジェクトを生成するもの。もうひとつは画像を元にそれを3D化するものです。 SV3Dは後者で、入力した画像からその被写体の複数の角度の姿を推定、つまり画像からのマルチビュー推定を実行します。そして推定した姿を元に3Dデータを生成する仕組みです。 SV3Dのライセンスは、ここ最近のStability AIのプロダクト同様に、研究目的等非商用なら無償・商用利用にはStablity AIのMemberships加入が必要です。
マルチビュー推定
SV3Dは、同じくStability AIが公開している動画生成モデルの「Stable Video Diffusion」(SVD)をベースに開発されました。 SVDのモデルをカメラ姿勢を条件としてファインチューニングしており、動画生成で重要な時間方向の一貫性を、空間的な一貫性に応用しています。 SVDの発表時点ですでに、そのマルチビュー推定能力の高さについて言及しており、SV3Dはそれを具体化した技術です。 基本的な原理は画像生成と同じで、大量の画像や動画を学習して潜在空間を構築しますが、カメラ位置も考慮します。 入力画像とカメラの位置を与えて潜在空間を探索し、その結果を画像に出力することで、入力画像の異なる角度の姿を推定できるのです。またベースが動画用のSVDであることで、画像生成とは異なり高い一貫性を担保しています。 学習に用いたデータセットは、Objaverseという3Dモデル集を用いています。ただしObjaverseは商用利用禁止のモデルなどを多数含むため、ここからCC-BYライセンスのものだけを抜粋しています。これはやはりStability AIが共同開発したTripoSRでも同様の方針でした。 現在公開されているモデルには「SV3D_u」と「SV3D_p」の2種類あります。SV3D_uは画像を1枚入力すると、アナログレコードプレーヤーのターンテーブルに乗せて回転させるような、いわゆるターンテーブル動画を生成します。SV3D_pは推定するカメラの軌道を任意に指定可能です。 uよりpの方がより正確な3D化に有利な角度からの姿を推定できますが、角度が任意の分、破綻するケースも多いようです。
【関連記事】
- 期待の3D生成AI「Stable Video 3D」(SV3D)発表。動画から3Dモデル生成、現状できることと今後の展望
- 多視点3Dディスプレイ「Looking Glass Go」用に写真を立体化、AIによる単眼深度推定の方法と課題を解説
- 誰でも3Dビデオが撮れる時代がやってきた。iPhone 15 Proで撮影した「空間ビデオ」は何で見ればいいのか(西田宗千佳)
- 毎秒100枚の画像を高速生成できる「StreamDiffusion」、文章指示で複数の動く3Dキャラを生成するNVIDIA開発「AYG」など重要論文5本を解説(生成AIウィークリー)
- 画像内キャラを3D変換する強力モデル「Zero123++」、文章から高品質3Dモデル生成するAI「DreamCraft3D」など重要論文5本を解説(生成AIウィークリー)