動画生成AIにも発展可能。“文章から物理シミュレーションを生成するAI”内蔵の高速物理エンジン「Genesis」など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第77回)では、テキストから物理シミュレーションを生成するAIを内蔵した高速物理エンジン「Genesis」、GPT-4oやClaude-3.5-Sonnetに匹敵するオープンソースの大規模言語モデル「DeepSeek-V3」を取り上げます。 【この記事の他の写真を見る】 また、人工生命を自動発見するAIシステム「ASAL」や、3種のプロンプトで柔軟に物体検出が可能なAIビジョンモデル「DINO-X」をご紹介します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、AI教師が囲碁を生徒に指導すると学習効果(人間の教師と比べた学習能力と男女差)はどうなるかを調査した研究論文「Can Artificial Intelligence Improve Gender Equality? Evidence from a Natural Experiment」を掘り下げています。 “テキストから物理シミュレーションを生成するAI”を内蔵した高速物理エンジン「Genesis」 Genesisは、新たに開発された物理エンジンで、多彩な3Dオブジェクトや物理現象の生成機能を備えています。この物理エンジンは、ロボット工学や物理AIアプリケーションなど、幅広い分野での活用を見据えて開発されました。 Pythonベースのオープンソースとして開発され、GitHubでコードが公開されていますが、現在はIsaac Gym/LabやMujocoと同様の物理シミュレーター部分のみが公開されており、生成機能は内部開発用として非公開となっています。 Genesis開発者のKashu Yamazaki氏に聞いたところ、Genesisの構造は低レイヤーに物理シミュレーター、高レイヤーに生成AIエンジン(イメージとしてはLLMエージェントに近い形)を備えており、ユーザーのプロンプトから物理シミュレーションを生成する機能を実現しているとのことです。 また、Genesisは高品質なレンダリング機能も備えており、将来的にはSoraなどの動画生成AIとは異なるアプローチによる動画生成の新たなパラダイムとしての可能性を秘めています。特に、物理的な正確性を保ちながら画角を自在に調整できる点や、生成コストの低さが大きな特徴となっています。 Genesisが生成できる3Dオブジェクトや物理現象は多岐にわたります。物理法則に忠実で空間的整合性の取れた映像、カメラワークやパラメータの制御、人間や動物のリアルな動作表現、インタラクティブな3Dシーン構築、多関節オブジェクトの制御、表情アニメーションなどを実現できます。 さらに、2足・4足歩行ロボット、ロボットアーム、ソフトロボット、ドローンなどの実世界で展開可能なロボット制御ポリシーの生成にも対応しています。また、布、液体、気体といった流動体から、弾性体、塑性体、粒状物質、人工筋肉まで、幅広い物質のシミュレーションが可能です。加えて、これらのオブジェクト間の物理的な衝突処理もサポートしており、高度な物理シミュレーションと制御を実現しています。 Genesisの主な特徴は、その卓越した処理速度と軽量性にあります。GPUを活用した並列計算による高度な最適化により、驚異的な性能を実現しています。例えば、ロボットアームのシミュレーションでは1秒間に4,300万フレームの処理が可能で、実時間の43万倍という高速化を達成。さらに、10,000台のロボットアームの動作計算をわずか2ミリ秒未満で同時に実行できます。 既存のGPUアクセラレーション技術と比較すると、10倍から80倍もの速度向上を実現しています。1台のRTX4090での実用的なロボット制御ポリシーのトレーニングが、わずか26秒で完了するといいます。 Genesis: A Generative and Universal Physics Engine for Robotics and Beyond Zhou Xian, Yiling Qiao, Zhenjia Xu, Tsun-Hsuan Wang, Zhehuan Chen, Juntian Zheng, Ziyan Xiong, Yian Wang,, Mingrui Zhang, Pingchuan Ma, Yufei Wang, Zhiyang Dou, Byungchul Kim, Yunsheng Tian, Yipu Chen, Xiaowen Qiu, Chunru Lin, Tairan He, Zilin Si, Yunchu Zhang, Zhanlue Yang, Tiantian liu, Tianyu Li, Kashu Yamazaki, Hongxin Zhang, Huy Ha, Yu Zhang, Michael Liu, Shaokun Zheng, Zipeng Fu, Qi Wu, Yiran Geng, Feng Chen, Milky, Yuanming Hu, Guanya Shi, Lingjie Liu, Taku Komura, Zackory Erickson, David Held, Minchen Li, Linxi “Jim” Fan, Yuke Zhu, Wojciech Matusik, Dan Gutfreund, Shuran Song, Daniela Rus, Ming Lin, Bo Zhu, Katerina Fragkiadaki, Chuang Gan Project | GitHub GPT-4oやClaude-3.5-Sonnetに匹敵するオープンソースの大規模言語モデル「DeepSeek-V3」 DeepSeekは、新たな大規模言語モデル「DeepSeek-V3」を発表しました。このモデルは総パラメータ数が6710億、各トークンの処理に370億のパラメータを活性化するMoE(Mixture-of-Experts)モデルです。14.8兆の高品質で多様なトークンでトレーニングされています。 性能評価において、DeepSeek-V3は現在利用可能な最も強力なオープンソースモデルとして位置づけられ、GPT-4oやClaude-3.5-Sonnetなどの主要な非公開モデルに匹敵する性能を達成しています。 特筆すべきは、その効率的なトレーニングコストです。プレトレーニング、コンテキスト長の拡張、ポストトレーニングを含む全トレーニングにかかったH800 GPUの時間は278.8万時間のみです。 このモデルは、英語と中国語を中心とした多言語コーパスでトレーニングされており、特にコードや数学の分野で卓越した性能を示しています。また、最大128Kトークンまでのコンテキスト長を処理することが可能です。 DeepSeek-V3 DeepSeek-AI Paper | GitHub | Hugging Face “人工生命”を自動発見するAIシステム「ASAL」をSakana AIやOpenAIなどの研究者らが開発 「ASAL」は、MITやSakana AI、OpenAIの研究チームによって開発された、人工生命のシミュレーションを自動的に探索・発見するシステムです。従来の人工生命研究では、生命らしい振る舞いを示すシステムの設計は研究者の直感や試行錯誤に依存していましたが、ASALは画像・言語理解の基盤モデルを活用してこの過程を自動化しました。 システムは3つの主要な方法を提供します。「Supervised Target」は特定の現象を示すシステムを自動発見し、「Open-Endedness」は時間とともに新しい振る舞いを生み出すシステムを探索し、「Illumination」は異なる特徴を持つシミュレーションを幅広く発見します。 このシステムの有効性は、Boids、Particle Life、Game of Life、Lenia、Neural Cellular Automataなど、様々な人工生命基盤で実証されました。具体的には、Leniaでは細胞のような生命体を、Boidsでは集団的知性を示す群れのパターンを、Particle Lifeでは自己組織化する生態系を発見することに成功しました。 Automating the Search for Artificial Life with Foundation Models Akarsh Kumar, Chris Lu, Louis Kirsch, Yujin Tang, Kenneth O. Stanley, Phillip Isola, David Ha Project | Paper | GitHub 3種のプロンプトで柔軟に物体検出が可能なAIビジョンモデル「DINO-X」 画像内のあらゆる物体を検出・理解できる統合的なビジョンモデル「DINO-X」が発表されました。 このモデルの特徴は、3種類の柔軟なプロンプト方式に対応している点です。1つ目は検出したい物体を文字で指定できる「テキストプロンプト」、2つ目は画像上で視覚的に物体を指定する「ビジュアルプロンプト」、3つ目は特定の用途やドメインに特化した「カスタマイズドプロンプト」です。 DINO-Xは物体検出にとどまらず、セグメンテーション、人物や手の姿勢推定、キャプション生成、領域ベースの視覚的質問応答など、より広範な知覚・理解タスクにも対応しています。 モデルには2つのバージョンが用意されています。より高性能な「DINO-X Pro」は、ベンチマークで最高水準の性能を達成し、特に珍しい物体の検出において大きな進歩を示しています。一方、エッジデバイスでの実用化を目指した「DINO-X Edge」は、640×640ピクセルの画像を1秒間に20.1フレーム処理できる高速性を実現し、前モデルから33%の処理速度向上を達成しています。 DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding Tianhe Ren, Yihao Chen, Qing Jiang, Zhaoyang Zeng, Yuda Xiong, Wenlong Liu, Zhengyu Ma, Junyi Shen, Yuan Gao, Xiaoke Jiang, Xingyu Chen, Zhuheng Song, Yuhong Zhang, Hongjie Huang, Han Gao, Shilong Liu, Hao Zhang, Feng Li, Kent Yu, Lei Zhang Paper | GitHub
TechnoEdge 山下裕毅(Seamless)
【関連記事】
- AIが生徒に囲碁を教えた結果、男女の実力差が解消。男女差は人間指導が原因?(生成AIクローズアップ)
- 半年でAI関連課金が2倍に。生成AIサブスク地獄から脱出できる?(CloseBox)
- リアルタイム文章読み上げAI「CosyVoice 2」、アニメの中間フレーム自動生成AI「AniDoc」など生成AI技術5つを解説(生成AIウィークリー)
- OpenAI「o3」は本当に“AGI”に近いのか? AGIレベルを評価する「ARC-AGI」の開発者が解説(生成AIクローズアップ)
- MicrosoftのGPT-4o超え小型言語AI「Phi-4」、カメラ越しの現実をリアルタイムに理解するオープンソースAI「IXC2.5-OL」など生成AI技術5つを解説(生成AIウィークリー)