動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」公開、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など重要論文5本を解説(生成AIウィークリー)
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第39回目は、生成AI最新論文の概要5つを紹介します。 生成AIグラビア写真集
実写動画をアニメ映像に変換など、動画をプロンプトで高品質に編集できるAIモデル「FRESCO」
この研究では、事前学習済みの画像拡散モデルを、追加学習なしで動画変換に適用できるゼロショット手法「FRESCO」を提案しています。入力動画が与えられた場合、内容と動きを保持しながら、目標とするテキストプロンプトに基づいて再レンダリングします。例えば、実写動画をアニメ調にしたり、登場人物の外見を変えたりすることができます。 FRESCOは、入力動画のフレーム内空間的対応とフレーム間時間的対応の両方を活用することで、高品質で一貫性のある動画変換を実現します。具体的には、U-Netのデコーダ層の特徴量を入力動画との整合性が高くなるように最適化する「FRESCO-aware feature optimization」と、Self-Attentionを入力動画の空間的・時間的対応に基づくAttentionに置き換える「FRESCO-guided attention」という2つの処理を導入しています。 これらの適応処理を組み合わせることで、生成される動画の一貫性を大幅に改善できることが示されました。また、FRESCOはControlNetやLoRAなどの既存の画像操作技術との互換性が高く、柔軟なカスタマイズが可能です。長時間の動画変換では、キーフレーム選択と補間を用いて効率化を図っています。 実験により、FRESCOが従来のゼロショット手法と比べて、編集精度と時間的一貫性の両面で優れていることが示されました。FRESCOは、動画の色付けなど、他のテキストガイドの動画編集タスクへの応用も期待されます。
既存モデル同士を掛け合わせて新しい高品質LLMを自律的に作り出す手法、AIベンチャー「Sakana AI」が開発
大規模言語モデル(LLM)の開発において「モデルマージ」と呼ばれる手法があります。これは、既存のモデルを掛け合わせて新たな高性能な基盤モデルを作る技術です。追加の学習データやコンピュータリソースを必要とせず、コストを抑えられるのが大きな利点です。 しかし現状、モデルマージには専門家の直感と経験に頼る部分が大きく、その可能性を十分に引き出せていません。多種多様な言語モデルが公開される中、人間の直感だけでは最適な組み合わせを見つけるのは困難だからです。 この問題を解決すべく、日本に拠点を置くAIベンチャー「Sakana AI」の研究者らは、モデルマージに進化的アルゴリズムを組み合わせた手法を開発しました。コンピュータが自動的にモデル同士を統合して最適なモデルを作り出すアプローチです。何世代もの統合を自律的に繰り返すことで、人に頼る従来の方法では難しかった、効率的に高品質なモデルを作り出すことに成功しました。 この手法の特徴は、モデルのパラメータだけでなく、推論時のデータの流れ方も最適化する点にあります。例えば、日本語の言語モデルに英語の算術モデルを統合することで、日本語で数学問題を解くモデルを作れます。 実際に、日本語LLM (7B) と英語の数学モデル(7B)をマージして日本語大規模言語モデル 「EvoLLM-JP」を作成しました。評価実験の結果、EvoLLM-JPは70B規模の日本語LLMを日本語の数学問題で上回る性能を示し、また数学問題以外の日本語タスクでも高い汎用性を発揮しました。さらに、同様の手法で日本語と画像認識モデルを統合することで、日本文化に特化した質問応答ができる日本語視覚言語モデル「EvoVLM-JP」の開発にも成功しています。
【関連記事】
- 動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」公開、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など重要論文5本を解説(生成AIウィークリー)
- OpenAI、文章から驚異的品質の動画を生成するモデル「Sora」発表。試せる一般公開はまだ先、世界を描ける汎用の生成AIレンダラになり得るか
- 「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説(生成AIウィークリー)
- 4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー)
- 複数画像レイヤー同時生成できるAI「LayerDiffuse」、MML対応音楽生成AI「ChatMusician」、高性能なリップシンクAI「EMO」など重要論文5本を解説(生成AIウィークリー)