GPT-4超え精度でスマホ上実行できるオンデバイス生成AI「Octopus v2」、Google「生成AIは大きければいいってものではない」など重要論文5本を解説(生成AIウィークリー)
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第41回目は、生成AI最新論文の概要5つを紹介します。 生成AIグラビアギャラリー
言語モデルの計算を最大50%高速にする「MoD」をGoogleが開発
この研究では、Transformer言語モデルの計算効率を改善するMixture-of-Depths(MoD)という手法を提案しています。通常のTransformerは全てのトークンに均等に計算リソースを割り当てますが、MoDでは動的にトークンを選択し、必要な箇所にのみ計算を集中させます。 この手法により、モデルは計算量を動的かつ文脈に応じてトークン単位で割り当てることを学習します。その結果、同等の計算量とトレーニング時間で、ベースラインの性能に匹敵するモデルが実現できました。さらに、推論時の1回の順伝播あたりの計算量を大幅に削減でき、最大50%高速化できることが示されました。 また、MoDの仕組みはMixture-of-Experts(MoE)と組み合わせることもでき、それぞれの利点を生かすことができます。この研究は、大規模言語モデルを、より高速かつ省リソースに学習・推論できる可能性を示しており、機械翻訳や要約、質問応答など、様々な自然言語処理タスクへの応用が期待されます。
「画像生成AIのモデルサイズを大きくすればいいとは限らない」をGoogleなどが実証
潜在拡散モデル(LDM)は、高品質な画像生成において優れた性能を示していますが、サンプリング効率の低さが実用上の課題となっています。この研究では、LDMのスケーリング特性、特にモデルサイズとサンプリング効率の関係について実証的に調査しました。 39Mから5Bまでのパラメータ数の異なる12種類のLDMを一から学習させた結果、モデルサイズを大きくすると、学習に使用する計算リソースの量に応じてtext-to-imageの性能が向上することが分かりました。また、事前学習の性能が高いほど、ダウンストリームタスクでの性能も高くなる傾向が見られました。 興味深いことに、同じサンプリングコストの制約下では、小さいモデルの方が大きいモデルよりも高品質の画像を生成できる場合が多いことが明らかになりました。さらに、ダウンストリームタスクにおいても、サンプリングステップ数が少ない場合は小さいモデルの方がサンプリング効率が良いことが示されました。 また、蒸留を適用した場合でも、サンプリングコストが制約された状況では、小さい蒸留モデルが大きい蒸留モデルと同等の性能を示すことが分かりました。 これらの結果から、LDMをスケールアップする際は、モデルサイズを大きくするだけでなく、推論時のサンプリングコストとのトレードオフを考慮することが重要であると言えます。特に、サンプリングコストが制約された状況では、小さいモデルの方が効率的に高品質の画像を生成できる可能性があります。
【関連記事】
- GPT-4超え精度でスマホ上実行できるオンデバイス生成AI「Octopus v2」、Google「生成AIは大きければいいってものではない」など重要論文5本を解説(生成AIウィークリー)
- 生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など重要論文5本を解説(生成AIウィークリー)
- 動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」公開、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など重要論文5本を解説(生成AIウィークリー)
- 「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説(生成AIウィークリー)
- 4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー)