アバター、街並み、果ては「群衆行動」までーー留まる所を知らない“生成AIの現在地” 『SIGGRAPH 2024』レポート
AIによる画像生成は今日ではもはや珍しい技術ではなく、最近ではOpenAIの『Sora』をはじめとする動画生成が注目されている。生成AIとコンピューターグラフィックが重なり合う「グラフィックAI」の領域は、進化が著しい技術分野のひとつである。 【画像】『SIGGRAPH 2024』ではキャラクターの一枚絵から3Dモデルを生成する驚きの技術も登場した グラフィックAIの最前線を知るには、コンピューターグラフィックに関する世界最大のカンファレンス『SIGGRAPH 2024』(※1)で発表された技術論文をあたるとよい。そこで本稿では、同カンファレンスで発表されたグラフィックAIに関する興味深い論文を画像生成、動画生成、3Dオブジェクト生成、その他の生成という4つのカテゴリーから、合計10本を紹介する。 ■より複雑な処理を実現する画像生成AI Googleの研究部門であるGoogle Researchらの研究チームは、画像の欠落部分を整合的かつ高品質に補完するAI「RealFill」を発表した(※2)。画像生成AIによって画像内の一部分を整合的に補完するインペインティングや、画像を外側に拡張するアウトペインティングは現在ではありふれた技術で、Adobe製品などにも搭載されている。 しかし、この技術を活用した場合、時として整合性のない補完処理が行われることがある。こうした失敗は、AIが補完対象となる画像と矛盾する補完を「正しいものだ」と誤認する、言わば「画像のハルシネーション(幻覚)」に起因する。 RealFillは、以上のような失敗を克服するAIである。同AIは、補完対象となる画像と同一のシーンで撮影された数枚の画像から学習することで、整合的かつ高品質な補完処理を実現した。参照画像は、被写体が同じであればカメラの位置や照明設定が異なっていても学習に支障がない。 またGoogle Researchは、人物をはじめとする生成されたキャラクターの同一性を保ちながらさまざまな画像を生成するAI「The Chosen One」も発表している(※3)。生成キャラクターの同一性の維持は画像生成における克服すべき課題のひとつであり、これまでにもさまざまな解決策が提案されてきた。このAIは、「生成キャラクターの同一性問題」に関する新たな解説策と言える。 The Chosen Oneは、最初のテキスト入力に対して多数の画像を生成する。そして、これらの画像を共通した特徴にもとづいてグループに分ける。さらにテキスト入力すると、入力された内容に類似するグループが持っている特徴を再現しながら、新たな画像を生成する。このようにして共通の特徴を保持しながら、多様な画像を生成するのだ。 以上のふたつのAIは、いずれもクリエイターと一般ユーザーの両方にとって役立つ技術なので、近い将来に実用化されるかもしれない。 ■「カメラ制御」を可能とする次世代の動画生成AI Open AIの「Sora」をはじめとする動画生成AIが、テキスト入力に対して高画質な動画を生成するのは周知の通りである。しかしながら、現在の動画生成AIでは「カメラを左に振る」といった細かなカメラ制御に柔軟に対応できていない。これに対して、香港城市大学らの研究チームが、テキスト入力によるカメラ制御が可能な動画生成AI「Direct-a-Video」を発表した(※4)。 Direct-a-Videoは、テキスト入力による生成動画の内容指定とは別に、カメラ制御情報の入力も可能となっている。たとえば右方向にカメラを旋回させたい場合は、「+0.3 X-pan」と入力する。X-panとはX軸つまりは水平に旋回、+0.3はX軸の正の方向つまりは右方向に0.3°旋回をそれぞれ意味する。さらに、動画内のキャラクターの動きも指定できる。 Direct-a-Videoがカメラ制御に対応しているのは、このAIが大量の動画から学習する時に、動画の内容とは別にカメラの動きを分離して学習しているからである。 同様にシンガポールの南洋理工大学らの研究チームも、カメラ制御可能な動画生成AI「MotionCtrl」を発表している(※5)。このAIも前出のDirect-a-Videoのように、カメラと動画内キャラクターの動きの制御が可能だ。さらに、マウスなどで描かれた複雑な動線からも動きに関するベクトル情報を抽出したうえで、カメラや動画内キャラクターを動かせる。 MotionCtrlに関しては、実際にこのAIを簡単に操作できるデモページも用意されている(※6)。デモページに掲載されたサンプル画像を読み込んだ後、カメラの動きを指定すると視点が移動しながら画像が表示される。 イタリアのトレント大学らの研究チームは、特定のビデオゲームのプレイをテキスト入力に即して再現するAI「PGM(Promptable Game Models:プロンプト入力可能なゲームモデル)」を発表した(※7)。このAIを使うと、例えばMinecraftの特定のゲーム環境に対して「階段を駆け登って、金色の柱に飛び移る」とテキスト入力すると、その入力内容に合致したプレイ動画が生成される。このAIは、ゲーム開発やゲームプレイ動画の制作において大いに役立つだろう。 ■3Dオブジェクト生成AIは衣服や複雑な形状の生成が可能に テキストや画像の入力から3Dオブジェクトを生成するAIの研究は、現在さかんに行われている。そうした研究の成果として中国の上海科技大学らの研究チームらは、テキスト入力からフォトリアルな衣服の3Dオブジェクトを生成するAI「DressCode」を発表した(※8)。このAIに対して、例えば「暗い黄色と青のストライプ」「丈の短いパンツ」とテキスト入力すると、入力内容に合致した3D衣服オブジェクトが生成される。 DressCodeにはテキスト入力からスカートやTシャツといった衣服の基本的な分類と形状を理解したうえで衣服の3Dオブジェクトを生成する機能と、衣服の柄を生成する画像生成機能が実装されている。テキスト入力から衣服に関する情報を抽出するために、ChatGPTのような大規模言語モデルも活用されている。 上海科技大学は、テキスト入力から複雑な形状の3Dオブジェクトを生成するAI「CLAY」も発表している(※9)。このAIの開発にあたっては、高品質な出力を実現するために、学習データの収集に労力を費やしたと語られている。具体的には、既存の3DオブジェクトデータセットであるShapeNetやObjaverseから高品質なデータを選抜したうえで、52万7,000個の3Dオブジェクトで構成された学習データを用意したのだという。 なお、前出のDressCodeとCLAYはどちらも『SIGGRAPH 2024』の優秀論文に選出された(※10)。 中国・清華大学らの研究チームは、1枚のキャラクター画像からそのキャラクターの3Dオブジェクトを生成するAI「CharacterGen」を発表した(※11)。このAIは、任意のキャラクター画像を入力すると、前後左右から見た4枚のマルチビュー画像セットを生成後、さらにこの画像セットを用いて3Dオブジェクトを生成する。 実際にCharacterGenを試行できるデモページが用意されている(※12)。生成された3Dオブジェクトは、ゲーム開発などでよく利用される「Aポーズ」(左右の腕を斜め下に広げた姿勢)で出力される。この出力結果をポーズを自由に設定するためにボーン(関節)などを設定するツールであるAccuRIGに入力すれば、生成した3Dキャラクターのポーズをさまざまに変えられる。 ■AIの生成対象は街並みや“群衆行動”に拡大 『SIGGRAPH 2024』では、グラフィックAIの新たな可能性を提示するような論文も発表された。Google傘下のAI研究機関・DeepMindらの研究チームは、街の地図から特定の位置を指示すると、その位置周辺のリアルな街並みを生成するAI「Streetscapes(※英単語で「街並み」を意味する)」を発表した(※13)。今回の発表ではパリ、ロンドン、バルセロナ、ニューヨークの街並みを生成するために、こられの都市に関するGoogleストリートビューから33キロ平方メートルをカバーする画像を学習データとして収集した。同AIのデモ動画を視聴すると、生成された街並みの動画はGoogleストリートビューより高画質なのがわかる。 Streetscapesは、Googleストリートビューを凌駕する街並みを生成するだけではない。雨や雪といった天候や、日の出や夕方といった日照条件を設定して街並みを生成できるのだ。さらに、「道路の配置はパリのようだが、道路に並んでいる建物はニューヨーク」のような現実には存在しない街並みも生成できる。 Streetscapesは地図アプリの新機能として実用化される可能性があるのみならず、映像制作やゲーム開発にも流用できるだろう。 香港大学らの研究チームは、移動する群衆に関する文章を入力すると、その入力内容に合致するような群衆行動アニメーション(人混みや雑踏のシーン)を生成するAIを発表した(※14)。このモデルは群衆が行動する環境と移動する際の移動速度と方向を学習したうえで、入力テキストを理解する大規模言語モデルを統合することによって実現した。 以上のAIには、映像制作やゲーム開発における群衆アニメーションの制作を容易にするポテンシャルがある。近い将来、こうしたAIがCG制作ツールや各種ゲームエンジンに統合されるかもしれない。 ここまで紹介した論文からわかるように、グラフィックAIはコンテンツ制作におけるさまざまな業務を支援する方向に進化し続けていることがわかる。それゆえ、AIをうまく使えるクリエイターはいっそう“仕事ができる”ようになるだろう。また、AIはコンテンツ制作に縁がなかった人々に“ものを作る喜び”をもたらしてくれるかもしれない。引き続きクリエイター・非クリエイターを問わず、関心のある方は注視すべきだ。 〈参考〉 (※1)SIGGRAPH 2024公式サイト(https://s2024.siggraph.org/) (※2)Google Researchら「RealFill | Reference-Driven Generation for Authentic Image Completion」(https://realfill.github.io/) (※3)Google Researchら「The Chosen One: Consistent Characters in Text-to-Image Diffusion Models」(https://omriavrahami.com/the-chosen-one/) (※4)香港城市大学ら「Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion」(https://direct-a-video.github.io/) (※5)南洋理工大学ら「MotionCtrl: A Unified and Flexible Motion Controller for Video Generation」(https://wzhouxiff.github.io/projects/MotionCtrl/) (※6)Hugging Face「MotionCtrl: A Unified and Flexible Motion Controller for Video Generation」 https://huggingface.co/spaces/TencentARC/MotionCtrl (※7)トレント大学ら「Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion Models」 https://snap-research.github.io/promptable-game-models/index.html (※8)上海科技大学ら「DressCode: Autoregressively Sewing and Generating Garments from Text Guidance」 https://ihe-kaii.github.io/DressCode/ (※9)上海科技大学ら「CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets」 https://sites.google.com/view/clay-3dlm (※10)SIGGRAPH Blog「SIGGRAPH 2024 Technical Papers Awards: Best Papers, Honorable Mentions, and Test-of-Time」 https://blog.siggraph.org/2024/06/siggraph-2024-technical-papers-awards-best-papers-honorable-mentions-and-test-of-time.html/ (※11)清華大学らの研究チーム「CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Calibration」 https://charactergen.github.io/ (※12)Hugging Face「[SIGGRAPH'24] CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Calibration」 https://huggingface.co/spaces/VAST-AI/CharacterGen (※13)DeepMindら「Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion」 https://boyangdeng.com/streetscapes/ (※14)香港大学ら「Text-Guided Synthesis of Crowd Animation」 https://mlzg.github.io/Publications/Sig24_TextCrowd/
吉本幸記