動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」公開、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など重要論文5本を解説(生成AIウィークリー)
Soraの再現を目指すオープンソースText-to-Videoモデル「Open-Sora 1.0」がリリース
OpenAIが開発した動画生成AIモデル「Sora」は、多数のText-to-Videoモデルの中でも突出した性能を示し、世界中から注目を集めています。そんな中、HPC-AI Techの開発チームは「Open-Sora 1.0」という、Soraの再現を目指したオープンソースモデルを公開しました。 Open-Soraは、データ処理から学習の詳細、モデルのチェックポイントに至るまで、Soraの学習プロセス全体を模倣するように網羅しています。開発チームは、Open-Soraのモデルアーキテクチャ、学習済みモデルのチェックポイント、学習とデータ準備の詳細、デモ動画、チュートリアルなどを全てGitHubで公開しており、今後もOpen-Soraの最新情報を継続的にアップデートしていく予定だと述べています。 Open-Soraは、Diffusion Transformerアーキテクチャをベースに、時間方向のAttentionを追加して動画生成に対応しました。学習は、大規模な画像事前学習、動画事前学習、高品質動画データでのファインチューニングの3段階で行われ、効率的に高品質な動画生成を実現します。 ビデオデモの例として、海岸の岩に打ち寄せる海の映像、山の滝、サンゴ礁でゆっくり泳ぐ海亀、タイムラプスで撮影された星空の映像などが解像度512×512の2秒ほどの長さの生成作品で紹介されています。現在のOpen-Soraは40万件の学習データでしか学習されていないため、今後さらに改良していく計画です。
山下裕毅(Seamless)@TechnoEdge
【関連記事】
- 動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」公開、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など重要論文5本を解説(生成AIウィークリー)
- OpenAI、文章から驚異的品質の動画を生成するモデル「Sora」発表。試せる一般公開はまだ先、世界を描ける汎用の生成AIレンダラになり得るか
- 「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説(生成AIウィークリー)
- 4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー)
- 複数画像レイヤー同時生成できるAI「LayerDiffuse」、MML対応音楽生成AI「ChatMusician」、高性能なリップシンクAI「EMO」など重要論文5本を解説(生成AIウィークリー)