GPT-4超え精度でスマホ上実行できるオンデバイス生成AI「Octopus v2」、Google「生成AIは大きければいいってものではない」など重要論文5本を解説(生成AIウィークリー)
ピクセルを1つずつ予測するのではなく、画像を粗い解像度から徐々に高解像度へと生成する、高速かつ高品質な画像生成AI「VAR」
「Visual Autoregressive Modeling」(VAR)は、効率的でスケーラブルな画像生成の新手法です。従来の自己回帰画像モデルが「次のピクセルを予測する」という方式を用いていたのに対し、VARは「次の解像度を予測する」という方式を採用しました。 具体的には、VARは入力画像を複数の粗い解像度に量子化し、低解像度から高解像度へと段階的に潜在表現を生成していきます。この設計により、計算量が大幅に削減され、20倍以上の高速生成が可能になりました。また、空間的な局所性が保持され、CNNの利点を活かせます。 VARは数十億パラメータへの効率的なスケーリングが可能で、パラメータ数に対する性能向上に明確なべき乗則が認められました。これは大規模言語モデルと同様の特性です。ImageNetのベンチマークでは、わずか2Bパラメータで最先端のDiffusion Transformerを凌駕する高品質画像を生成できました。 さらに、VARは画像補完や編集などのゼロショット・タスクにも汎化できることが実証されています。
パラメータ効率の高いファインチューニング手法「ReFT」をスタンフォード大学などが開発
大規模言語モデルを新しいタスクに適応させる際、モデルの全てのパラメータを更新するファインチューニングは非常に計算コストがかかります。そこで注目されているのが、パラメータ効率の良いファインチューニング手法「PEFT」です。PEFTは一部のパラメータのみを更新することで、メモリ使用量とトレーニング時間を削減しつつ、全パラメータを更新する場合と遜色ない性能を実現します。 研究チームは、新しいPEFTアプローチ「Representation Finetuning」(ReFT)を提案しました。既存のPEFTがモデルの重みを更新するのに対し、ReFTはモデルの中間表現に介入することでモデルを制御します。研究では特に「Low-rank Linear Subspace ReFT」(LoReFT)という手法に焦点を当てており、これは低ランクの射影行列で張られる部分空間内で中間表現を編集するというシンプルかつ強力な手法です。 研究チームは、常識推論、算術推論、自然言語理解などの20以上のデータセットでLoReFTの性能を評価しました。その結果、LoReFTは最新のPEFT手法と比べてパラメータ数を10分の1から50分の1に抑えつつ、ほとんどのタスクで最高性能を達成しました。特に大規模なモデルほどLoReFTの優位性が顕著でした。
【関連記事】
- GPT-4超え精度でスマホ上実行できるオンデバイス生成AI「Octopus v2」、Google「生成AIは大きければいいってものではない」など重要論文5本を解説(生成AIウィークリー)
- 生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など重要論文5本を解説(生成AIウィークリー)
- 動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」公開、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など重要論文5本を解説(生成AIウィークリー)
- 「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説(生成AIウィークリー)
- 4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー)