3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成
動画生成AIの発展により、非常に面白い方向性が生まれてきています。最新の動画生成技術と3D技術を組み合わせることで、たった1枚の絵から、3Dデータを作れるようになる可能性が出てきているんです。 【もっと写真を見る】
動画生成AIの発展により、非常に面白い方向性が生まれてきています。最新の動画生成技術と3D技術を組み合わせることで、たった1枚の絵から、3Dデータを作れるようになる可能性が出てきているんですね。これは将来のゲーム開発や映像制作のあり方を激変させる可能性があります。 ※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください 動画生成AI「Runway」新機能がきっかけ まず、この動画を見てください。Stable Diffusionを使って作成した1枚の画像を、いくつかの手順を実施することで、3Dモデルとして扱えることに成功している様子です。 こうしたことが実現できるようになったのは、動画生成AIサービス「Runway」に11月2日に追加された新機能「カメラコントロール機能(Advanced Camera Control)」のためです。1枚の画像に対して、最大10秒の生成される動画にカメラの動きをかなり詳しく指定できるようになりました。左右方向の回転や、上方向へのチルト、ズーム(拡大)などの操作ができてしまう。 これまでもプロンプトでも指定できましたが、ランダム性が高く、正確な制御は難しいものでした。そして、実写のみならず、アニメ系の画像であっても動かすことができたりします。この機能が先進的なのは、人物やキャラクターの「一貫性」を維持できている点です。これまでの動画生成AIではこうしてカメラを動かすと、途中から別の人物に変化するといった破綻が起きる傾向がありました。 この動画では、最初の1枚の画像以外はすべてカメラコントロール機能で生成しています。背負っているバックパックといったものは情報として持っていないので、勝手に描かれてしまうので形状は変わってしまうのですが、それでも、かなり一貫性が維持されており、スカートのひだも崩壊したりしていません。 次の動画では、同じくカメラコントロール機能で、カメラを動かしています。3種類の画像を使い、それぞれの起点となる1枚の画像を中心に左右に動かし、合成しています。細かく見ると破綻を見つけることができるのですが、それでも、イラスト風キャラクターに対し、ある程度の一貫性を保って角度の違うキャラクター描写ができています。 画像生成動画生成3Dデータへ この機能そのものが面白いのですが、こうした動画を利用することで、まったく新しい3D制作を実現できる可能性が、様々な方により模索されつつあります。 その1つが、イラスト1枚から、Runwayで動画を生成した後に、3Dガウシアンスプラッティング(3D Gaussian Splatting、3DGS)に変換するソフトで処理すれば、3Dデータに変換できるということ。11月4日、3Dジェネラリストのデビッド・リース(Dawid Ryś)さんがXに投稿したものです。3DGSは、昨年登場した複数の画像から3Dシーンを作成するための方法です(参照:3Dスキャンの進化がすごい。今なら無料で高精度、しかも簡単!) This is interesting! #Runway shows the camera control for its #gen3 video model. You can do orbiting motion around object (kind of). Naturally what comes next is to use this as content for #GaussianSplatting. Inspired by @isoOH78 tweet I did a quick test with @runwayml video. pic.twitter.com/KeQ740SFZZ ― Dawid Ryś (@KotLesny) November 3, 2024 デビッド・リースさんは以下のような手順を紹介しています。 1. 1枚絵からRunwayで回転動画を作る 2. 回転動画を3DGSを生成するソフトウェア(PostShot)に入れる 3. 動画が3Dデータとして扱えるようになる(Blenderでも利用可能) リースさんは、Xの投稿で、その3Dデータを裸眼立体視が可能なディスプレー「Looking Glass Go」に表示して、実際に3Dになっていることを示しています。 動画を3DGS化に使っているのは、独Jawset Visual Computing社が開発している「PostShot」という3DGS作成専用のソフトウェアです。現在はベータ版を無料で利用できます。ソフトにローカルPC環境で動画や写真を持ち込むと、それらを解析して、3DGSを生成してくれます。そして、先程の動画の一部の素材の20秒ほどの動画で作成をしてみました。3DGSの生成には、NVIDIA RTX 4090のローカルPC環境で、約30分かかっています。 ▲画像を3DGS化したものを、若干距離を置いて撮影した動画。カメラに存在しない情報は存在しないため、3DGSの雲のようなノイズのように表示される カメラに写っていないところの情報はそもそもないので破綻してしまうんですが、逆に、カメラの視点を増やせばより精緻になります。そのため、この画像であっても、さらに様々な視点で動画を生成して、撮影量を増やせば、詳細なモデルが作れることが期待できます。 ただ、ファイルサイズは非常に大きく、現在のものでも600MBもあります。ゲームエンジンなどで扱えるようにデータ量を整理するためには、Blender等に持ち込んで、プラグイン等を使って削減する作業は必要です。 Photoshopとの合わせ技も考案される 画像1枚から3Dモデル生成をしてくれる「Tripo 3D」といったサービスも性能向上は進んでいるのですが、まだまだ扱いやすいとまでは言えません。 フォトリアルな小物などの一部のアイテム的に使うものでは使える水準に到達しつつありますが、まだまだアニメ系のキャラクターについては、正直イマイチの品質です。今回のキャラクターの画像を3D化してみたのですが、とても使い物にならないと思えました。 ただ、アーティストのマーティン・ネベロング(Martin Nebelong)さんが、Tripo 3Dのまだ粗い3Dであっても、画像生成AIと組み合わせて2D画像としてなじまして使うことはできるとの提案をしています。 Photoshopと連携して使うことができるSubstance 3D Viewerを使い、Tripoで作成した3Dモデルの表示方向を決めて画像として持ち込んで処理する方法です。背景は「生成塗りつぶし」機能を使って作成して合成します。そして、「ComfyUI Photoshop Plugin」プラグインのImage-to-Image(i2i)を使うことで、画像を背景と組み合わせて自然なものにできるというわけです。 What do you think of the new MJ editor? To me systems like that offer only the illusion of creative control.. they still take way too many of the creative choices. Good if you just want a pretty picture that is well within the understanding of the training data.. not so great for pic.twitter.com/6q7wI27Caj ― Martin Nebelong (@MartinNebelong) October 24, 2024 筆者も同じような環境が実現できるか試してみました。提案されているプラグインが的確に動かなかったので、一度画像として出力して、それを画像生成AIの環境として一般的な「Web UI Forge」のStable Diffusion XLに読み込み、i2iで画像を生成しました。3Dモデルをヒントとして、最初のイメージに近いキャラクターを別の角度からの姿としてうまく生成できています。2Dとして使う前提であれば、現在の3Dモデルの品質でも十分に使える可能性があるのです。また、さらにRunwayを使うことで、一貫性のある動画の素材としても使えることも確認しました。 ▲Runwayのキーフレーム機能で、変換後の画像を始点に、元となる画像を終点にして、生成した動画 2Dイラスト3Dデータ、来年にも 3DGSモデルでも、画像から3D化を図るものでも、どちらも目標となっているのは「1枚の画像から、精緻な3Dモデルを生成し、それを軽量化してリアルタイム3Dの環境で手軽に扱えることを実現すること」です。そのためには、1枚絵から一貫性のある様々な角度の画像を安定的に生成する必要があります。そのための方法の模索も、さらに登場してきました。 アーティストでプログラマーのAlexさんは、より高度な品質を実現する方法を提案しました。人物の顔の画像を使ってRunwayで動画を作成し、3DGSを作成した後に、Blenderに読み込み、そして頭の周囲を回転する動画を作成し、さらにその動画をRunwayでノイズが少なく精緻な40秒の動画にします。そして、動画から3Dモデルを作成するサービス「Polycam 3D」を使うことで、高品質な3DGSモデル化を実現するという方法です。 It is now possible to generate 3D models using Gaussian Splatting with RunwayML's new Vid2Vid 20-second videos. Simply upload a 20-second turnaround video of a basic 3D model made with blender, then convert it into a realistic video using the Vid2Vid. After that, use RunwayML's pic.twitter.com/ipPOn9CsAw ― Alex (@alexfredo87) November 17, 2024 さらに、ユッカ・セッパネン(Jukka Seppänen)さんは、ローカルPCで動作可能な動画生成AI「CogVideoX」を使って、Runwayと同じようなカメラコントロールが可能であることを紹介し、さらに、Ulfさんが、その動画から3DGS化してキャラクターだけを取り出すことができることを証明しました。 I have finally pushed a bigger update to my CogVideoX ComfyUI wrapper nodes, cleaning up most of the bloat that has been accumulating with all these different models. One of the discoveries I made during this is that the orbit -LoRAs work with the "Fun" -models as well! pic.twitter.com/daOV2rvAAL ― Jukka Seppänen (@Kijaidesign) November 19, 2024 I have finally pushed a bigger update to my CogVideoX ComfyUI wrapper nodes, cleaning up most of the bloat that has been accumulating with all these different models. One of the discoveries I made during this is that the orbit -LoRAs work with the "Fun" -models as well! pic.twitter.com/daOV2rvAAL ― Jukka Seppänen (@Kijaidesign) November 19, 2024 動画生成AIが実現しつつある一貫性が実現されたことによって、今後、1枚絵から詳細な3Dが作れることが実現されることが期待できるようになってきました。 複数のアプリ間の機能を使わなければ実現できないこともあり、まだ扱いは簡単とは言えませんが、こうした技術は、ゲームや映像制作のあり方を大きく変える可能性があります。まだ、3DGSをポリゴン(メッシュ)情報に簡単に変換できないといった弱点はあるのですが、活発に研究が進んでいる分野でもあり、突破口は早晩見つけられることが期待されています。 来年の今頃には、これらの仕組みが統合され、1枚の画像をアップロードすると、高精細な3Dモデルとして出力されるといった時代が実現される可能性も十分あるのではないでしょうか。 筆者紹介:新清士(しんきよし) 1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。 文● 新清士