AI同士が教え合い質を高めるMicrosoft開発オープンLLM「WizardLM-2」、外で撮影した動画→実世界3Dゲームに変換するAI「Video2Game」など重要論文5本を解説(生成AIウィークリー)
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第43回目は、生成AI最新論文の概要5つを紹介します。 生成AIグラビアギャラリー
画像の衣服をキャラクターに着せる生成モデル「Magic Clothing」
テキストと衣服画像を入力として、指定したキャラクターにその衣服を着せることができるモデル「Magic Clothing」を提案しています。この技術は、潜在拡散モデル(LDM)をベースとし、衣服の細部を忠実に再現しながら、テキストの指示にも従った多様な画像生成を可能にします。 Magic Clothingでは、garment extractorと呼ばれるモジュールを導入することで、入力画像から衣服の詳細な特徴を抽出し、LDMの潜在空間に滑らかに統合します。これにより、生成画像上で衣服の細部を忠実に再現できます。さらに、衣服の特徴とテキストプロンプトのコントロールのバランスを取る工夫もしています。 Magic Clothingは、追加学習のコストを抑えつつ、ControlNetやIP-Adapterといった他の拡張モジュールとの組み合わせが可能です。 性能評価のため、衣服と人物画像のペアからなるデータセットを構築し、CLIP scoreやLPIPSをベースとした指標を用いて定量的に比較したところ、Magic Clothingが従来手法を上回ることが示されました。質的な結果の比較でも、提案手法が衣服の細部を保持しつつ、テキストの指示に沿った多様で高品質な画像を生成できることが確認されました。
撮影した動画を操作可能な実世界3Dゲームに変換するAIモデル「Video2Game」
Video2Gameは、単一の動画から、リアルタイムでインタラクティブな3D環境を自動生成するアプローチです。このシステムは、NeRF(Neural Radiance Fields)、メッシュ、物理モジュールの3つのコアコンポーネントで構成されています。 NeRFモジュールがシーンのジオメトリとビジュアルな外観を効果的にキャプチャし、メッシュモジュールがNeRFの知識を蒸留することでレンダリングを高速化します。さらに、物理モジュールがオブジェクト間のインタラクションと物理的なダイナミクスをモデル化します。 これらのモジュールを巧みに組み合わせることで、Video2Gameは現実世界と見紛うようなインタラクティブな3Dバーチャル環境を構築します。この環境内では、ユーザーの操作にキャラクターがリアルタイムに反応し、自由に動き回ることができます。 研究チームは、屋内シーンや大規模な屋外シーンなど様々な環境でVideo2Gameのベンチマークテストを行い、その性能を検証しました。その結果、どのようなシーンにおいてもリアルタイムかつ高品質な3Dレンダリングを生成できるだけでなく、そこからインタラクティブなゲームを直接構築できることが分かりました。
【関連記事】
- AI同士が教え合い質を高めるMicrosoft開発オープンLLM「WizardLM-2」、外で撮影した動画→実世界3Dゲームに変換するAI「Video2Game」など重要論文5本を解説(生成AIウィークリー)
- iPhoneとAndroidのUIを理解するAppleの言語モデル「Ferret-UI」、AI生成の“誤ったコード”を自律修正するAI「AutoCodeRover」など重要論文5本を解説(生成AIウィークリー)
- GPT-4超え精度でスマホ上実行できるオンデバイス生成AI「Octopus v2」、Google「生成AIは大きければいいってものではない」など重要論文5本を解説(生成AIウィークリー)
- 生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など重要論文5本を解説(生成AIウィークリー)
- 動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」公開、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など重要論文5本を解説(生成AIウィークリー)