AI同士が教え合い質を高めるMicrosoft開発オープンLLM「WizardLM-2」、外で撮影した動画→実世界3Dゲームに変換するAI「Video2Game」など重要論文5本を解説（生成AIウィークリー）

4/22(月) 13:04配信

Video2Game

1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第43回目は、生成AI最新論文の概要5つを紹介します。生成AIグラビアギャラリー

画像の衣服をキャラクターに着せる生成モデル「Magic Clothing」

テキストと衣服画像を入力として、指定したキャラクターにその衣服を着せることができるモデル「Magic Clothing」を提案しています。この技術は、潜在拡散モデル（LDM）をベースとし、衣服の細部を忠実に再現しながら、テキストの指示にも従った多様な画像生成を可能にします。 Magic Clothingでは、garment extractorと呼ばれるモジュールを導入することで、入力画像から衣服の詳細な特徴を抽出し、LDMの潜在空間に滑らかに統合します。これにより、生成画像上で衣服の細部を忠実に再現できます。さらに、衣服の特徴とテキストプロンプトのコントロールのバランスを取る工夫もしています。 Magic Clothingは、追加学習のコストを抑えつつ、ControlNetやIP-Adapterといった他の拡張モジュールとの組み合わせが可能です。性能評価のため、衣服と人物画像のペアからなるデータセットを構築し、CLIP scoreやLPIPSをベースとした指標を用いて定量的に比較したところ、Magic Clothingが従来手法を上回ることが示されました。質的な結果の比較でも、提案手法が衣服の細部を保持しつつ、テキストの指示に沿った多様で高品質な画像を生成できることが確認されました。

撮影した動画を操作可能な実世界3Dゲームに変換するAIモデル「Video2Game」

Video2Gameは、単一の動画から、リアルタイムでインタラクティブな3D環境を自動生成するアプローチです。このシステムは、NeRF（Neural Radiance Fields）、メッシュ、物理モジュールの3つのコアコンポーネントで構成されています。 NeRFモジュールがシーンのジオメトリとビジュアルな外観を効果的にキャプチャし、メッシュモジュールがNeRFの知識を蒸留することでレンダリングを高速化します。さらに、物理モジュールがオブジェクト間のインタラクションと物理的なダイナミクスをモデル化します。これらのモジュールを巧みに組み合わせることで、Video2Gameは現実世界と見紛うようなインタラクティブな3Dバーチャル環境を構築します。この環境内では、ユーザーの操作にキャラクターがリアルタイムに反応し、自由に動き回ることができます。研究チームは、屋内シーンや大規模な屋外シーンなど様々な環境でVideo2Gameのベンチマークテストを行い、その性能を検証しました。その結果、どのようなシーンにおいてもリアルタイムかつ高品質な3Dレンダリングを生成できるだけでなく、そこからインタラクティブなゲームを直接構築できることが分かりました。

次ページは：Metaなど、数百万トークンを入力しても効果的に処理できるAIモデル「Megalodon」開発

1/3ページ

Yahoo!ニュース

AI同士が教え合い質を高めるMicrosoft開発オープンLLM「WizardLM-2」、外で撮影した動画→実世界3Dゲームに変換するAI「Video2Game」など重要論文5本を解説（生成AIウィークリー）

画像の衣服をキャラクターに着せる生成モデル「Magic Clothing」

撮影した動画を操作可能な実世界3Dゲームに変換するAIモデル「Video2Game」

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）