1枚の画像から、歩き回れる“世界”ができる 来年のAIは「ワールドモデル」がやばい
12月4日に、グーグルDeepMindがワールドモデル「Genie 2(ジーニー2)」を発表してきました。そう遠くない将来、大きな3Dエンジンを使わなくても、リアルタイムな3D空間を劇的に簡単に作れてしまう、そんな可能性が見えてきています。 【もっと写真を見る】
12月4日に、グーグルDeepMindがワールドモデル「Genie 2(ジーニー2)」を発表してきました。画期的なのは、1枚の画像からインタラクション可能なゲームのような空間を作り出せるところです。現状、ゲームとしてプレイできるものは公開されておらず、動画のみの技術発表ですが、それでもすごいものです。生成AIを使い、インタラクティブな空間を作ろうという試みは、いくつかのアプローチで模索されています。代表的な簡易的な方法で実現しようというアプローチと、本格的なワールドモデルのアプローチを紹介します。 ※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください 1枚の画像から歩き回れる“世界”ができる 「Genie 2」では、画像1枚からAIが自動生成した3D環境でゲームをプレイできますが、毎回プレイごとに結果が違ってきます。プレイ時間は最長1分間。キーボード操作でアクションができて、カメラアングルも変えられます。 ▲Google Genie 2の紹介動画 特にすごいのはオブジェクトとの相互作用ができるところです。ドアを開けたり、風船を割ったり、銃で撃ってドラム缶を爆発させたりもできます。はしごを昇り降りすることもできます。物理特性もちゃんと学習していて、水や煙もしっかり描かれます。重力もしっかりとモデル化されて、崖からクルマが落ちるシーンなども描写されます。照明効果さえ出せるようになりました。 仕組みとしては、グーグルの画像生成AIモデル「Imagen 3(イマジェン3)」で作った画像をエンコードして、連続的に画像を生成しています。やろうとすればコンセプトイメージからゲーム空間を作れるわけですね。動画で大量に学習したと書かれていますが、さまざまなゲームのプレイ動画から学習したものでしょう。ただ、グーグルは基本的にオープンモデルを出さないので、競合が後追いすることになるでしょう。 AIで世界をシミュレーションする「ワールドモデル」 さかのぼると、2024年1月に画像生成AIサービスのMidjourneyのデイヴィッド・ホルツCEOが「2024年末までに、リアルタイムのオープンワールドが実現できれば」と発言していました。MidjourneyはAI動画などの関連する技術開発を進めているようですが、まだこの発言を受けた技術を発表していません。(参考:「“世界生成AI”到来か 画像生成AIのゲームエンジン化が進む」) 当時、ホルツ氏は「Midjourneyはすごく早く描けるアーティストではなく、むしろとても遅いゲームエンジンのようなもの」とも発言しています。画像生成AIが待ち時間なく連続的に画像を生成することができれば、それはリアルタイムに画像を作り出すゲームエンジンと本質的に同じであることを指摘していました。 Genie 2は、そうした連続的な画像を生成することで、ゲームエンジンのように動作させることが可能な技術です。こうした研究は生成AIを利用して世界シミュレーションの実現を目指す「ワールドモデル」と呼ばれます。最初に実現したのはDeepMindであったとはいえ、2024年末までにオープンワールドを実現する技術が登場してきたと言えます。 いくつか、生成AIを使ってゲーム的な没入感を実現しようとする先行研究が存在しています。代表的なのは、360度画像を生成することで、世界への没入を実現するというアプローチです。2022年にはこうした初期の研究が登場しています。現在はAI企業のInWord技術責任者のアレクセイ・ティホノフ氏が個人プロジェクトとして1993年にリリースされたFPS「Doom」の画面を学習した画像から、360度の動画を生成した動画をXにポストしています。 Okay, another way to have fun with CLIP + @pixray: text to 3d pixel panorama hallucinations (no original screenshots used!) Here is [doom]: pic.twitter.com/kxgnfdmU4q ― Aleksey Tikhonov (@altsoph) January 26, 2022 この実験は、2023年に「没入型体験のための仮想世界の展開(Unrolling Virtual Worlds for Immersive Experiences)」という研究として発表され、特定の場所をクリックすると別の360度の画像へと遷移する簡易的なアドベンチャーゲームスタイルの没入環境を実現する方法として発展させられました。 Good news! Our paper "Unrolling Virtual Worlds for Immersive Experiences" with @altsoph will be presented at @ML4CDworkshop at @NeurIPSConf 2023. Read more at: https://t.co/nL9GHDDaNOpic.twitter.com/7VsY6PIR2W ― Anton Repushko (@repushko_en) December 1, 2023 類似の技術は、米Blockade Labs(ブロケードラボ)が、「Skybox AI」という技術で商用サービス化を果たしています。プロンプトを入力するだけで360度の画像が生成されます。6月のアップデートでは8Kサイズの画像も生成可能になりました。 ただし、360度画像のアプローチには限界があります。画像生成AIの仕組みをうまく拡張することで比較的簡単に生成できるというメリットがありますが、生成された画像と直接的なインタラクションを実現することは簡単ではありません。 12月2日に米World Labs(ワールドラボ)というベンチャーが、360度画像に深度情報をうまく組み合わせることで、空間内を移動できるようにする技術を発表しました。1枚の参照イメージを入力情報とすると、そこから360度画像と深度情報も生成し、それを組み合わせて移動できるインタラクティブ可能な空間を作り上げる技術です。 実際に生成された世界に入れるデモが公開されていますが、特筆すべきなのは、これまでの類似サービスと比べて深度情報の生成が自然で、物体と背景の境界線に生じがちな不自然さがかなり解消されている点です。また、インタラクションにとって重要なアタリ判定の部分も適切に生成できているようにも見えます。 元が360度画像ということもあり、ユーザーが動き回れる範囲には制限があるのですが、それでも360度画像から生み出した画像から、オープンワールド的なインタラクションを目指していくアプローチでも着実に技術の進歩が進んでいます。 「Doom」「カウンターストライク」をAIで生成 一方で、今年、ワールドモデルについても、様々な可能性が提示されました。 8月にグーグルの研究チームなどが発表した「Diffusionモデルはゲームエンジンである(Diffusion Models Are Real-Time Game Engines)」という論文があります。これは「Doom」を画像生成技術でリアルタイムにプレイ可能にしたものです。Doomはオープンソースで公開されていることもあり、新しい技術分野の研究としてよく使われます。 この研究では、AIにDoomをプレイさせて数十億フレームの動画を作成し、それを「Stable Diffusion 1.4」を使って学習をさせたようです。そこに最適化を施し、1秒間に20フレームを生成できるようにすることで、ゲームを連続的にプレイできるようにしました。 ▲発表された実際に生成AIで生み出されているプレイ動画 その後10月に登場したのが、FPSゲーム「カウンターストライク:GO」を使った、ジュネーブ大学の「ワールド・モデリングのための拡散:アタリでは視覚的なディテールが重要(Diffusion for World Modeling:Visual Details Matter in Atari)」です。元々は、アタリのレトロゲームのプレイ動画を学習させて、再現することを目指す研究でした。特にビジュアル面での学習に力を入れることで、高い再現性を実現しています。 その方法論を3Dのゲームにも使えるのかを調べた研究です。 カウンターストライク:GOのマップとして有名な「Dust2」を使い、550万フレーム(95時間分)のプレイの様子を、RTX 4090のPC環境で、12日間かけて学習させたそうです。その結果、マウスとキーボードでプレイ可能な連続的な環境を作り出すことに成功したとしています。基本的な移動や、武器位置の変更、銃を撃って敵を倒すといった、一連のゲームシーンの再現もできています。もちろんマップの形状は次々に変わっていくのですが、「Dust2っぽい」マップが繰り返し生成されていきます。 ただし、連続的なジャンプをすると移動と間違えたり、視界を失ったりするとおかしくなったりと、技術的には限界もあります。学習量が少ないシーンでは不適切な動作をしたりもするようです。ワールドモデリングを実現するためには、多数の動きのバリエーションの持つ動画からの学習が必要なことが見えてきます。 ▲動作している動画。軽量化のために、生成サイズは小さいものをアップスケールしているために、細かいディティールは飛んでいる。動作環境は公開されているが筆者の環境ではうまく動作しなかった AIチップのEtchedもワールドモデルに着手 ワールドモデルを使って実験的なサービスを開始した事業者もいます。11月にAI開発企業のEtched(エッチト)とDecart(デカルト)は、「OASIS」をデモ版として公開しました。ユーザーのキーボードとマウスのインタラクションを通じて、インタラクティブな反応が起きるオープンワールドが実現されています。 「物理演算やゲームルール、グラフィックスを内部でシミュレートし、フレームごとにゲーム映像を生成」するとしており、学習データには、OpenAIが公開しているオープンソースの「マインクラフト」の動画のデータセットを使って学習しており、その再現に近いものになっています。 デモ版では5分間という制限がありますが、20FPSでリアルタイムに生成される世界を動き回ることができます。草を刈ったり、土を掘ったりといったマインクラフトのようにプレイすることができます。もちろん、見えていない部分の一貫性は担保されておらず、後ろを向いたりすると、山がなかったのに山ができていたりと、その度に違った地形が生成されるといった限界が現在はあります。 このデモは、Etchedが6月に発表したAI技術のアーキテクチャーに特化したチップ「Sohu」に最適化しており、今後、劇的な高速化が見込めるとしています。そして、今後インターネットのトラフィックの70%がビデオデータになるとしており、それらを支える技術になるとしています。 DecartはOASISを「より複雑なインタラクティブな世界への最初の進出」とし、「生成インタラクティブ体験(Generative Interactive Experience)」と呼ぶものを垣間見せるものであるとしています。「この新しい技術は、ユーザーがリアルタイムで操作できるインタラクティブな動画を作成することで、さまざまな体験を変える可能性があります。AIモデルがエンターテイメントをよりパーソナライズする世界を想像してみてください。AIモデルは、ユーザーの好みに基づいてコンテンツを即座に作成できます」(DecartのXへのポストより) 世界そのものをユーザーが望む設定で自由に生成し、その世界のインタラクションを実現するという未来を目指している事がわかります。 ▲筆者がOASISのデモをプレイしている様子。マインクラフトが再現されているのがわかると同時に、回転するとまるで違う空間の画像が出ている 遠くない将来、3D空間を劇的に簡単に作れる可能性 このような形で、生成AIの究極のゴールのひとつは、ユーザーが望む世界を生成し、その世界との自由なインタラクションを実現するという方向です。なんとかそれを実現しようと実現が比較的容易にできる方法から、ハードルの高い方法まで複数の方法が試されています。現状は、研究レベルのものが多い様子ですが、今後、オープンモデルも多数登場してくるのではないかと思います。2024年は動画生成AIがすごく多い年になりましたが、2025年はワールドモデルのサービス化が増えることになるでしょう。 ワールドモデルが何に使われるかといえば、第一の目的にはゲームがありますが、もっと気軽に作れるインタラクション空間への期待があるでしょう。3D空間作成は小さな空間であっても非常に手間がかかります。それが、1枚の画像さえあればできてしまう。もちろん、現時点ではできることには限界が数多くあります。画像サイズも小さいし、何が生成されるかもわかりません。しかし、そう遠くない将来に、大きな3Dエンジンを使わなくても、リアルタイムな3D空間を劇的に簡単に作れてしまう、そんな可能性が見えてきています。 筆者紹介:新清士(しんきよし) 1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。 文● 新清士