4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー)
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第37回目は、生成AI最新論文の概要5つを紹介します。 生成AIグラビア(画像ギャラリー)
24GBメモリの消費者向けGPUでも大規模言語モデルをゼロから事前学習できる可能性を示した手法「GaLore」、Metaなどが発表
現在、LLMをゼロから学習するには、大容量のメモリを搭載したGPUが必要で、膨大な計算リソースを消費します。LLaMA 7Bモデルをゼロから学習するには、少なくとも58GBのメモリが必要とされています。ファインチューニング時のメモリ要件を減らす手法(例えばLoRA)は大きく進歩していますが、LLMの事前学習における有効性は限定的です。 この障壁を克服し、LLMの学習全体を通してメモリを大幅に削減する手法「Gradient Low-rank Projection」(GaLore)を考案しました。GaLoreは、完全なパラメータ学習を可能にしつつ、一般的なLoRA手法よりもメモリ効率のよい学習を実現します。 LLaMA 1Bと7Bのアーキテクチャを使い、最大19.7Bトークンの大規模なC4データセットで事前学習実験を行った結果、GaLoreはオプティマイザのメモリ使用量を最大65.5%削減しつつ、完全ランクの学習と同等の効率と性能を達成しました。 さらに8ビットの最適化手法と組み合わせることで、オプティマイザのメモリを最大82.5%、訓練全体のメモリを63.3%削減できました。また、事前学習済みのRoBERTaをGLUEタスクでファインチューニングした際にも、LoRAと同等以上の性能を達成しました。 特筆すべきは、7BパラメータのLLaMAモデルを、24GBメモリの民生用GPU(NVIDIA RTX 4090)上で、モデル並列化やアクティベーションのチェックポイント、オフロードなしでゼロから学習できる可能性を示した点です。ただし、24GBメモリのGPU1台で7Bモデルを事前学習するのにどの程度の時間を要したかなどの詳細については言及されていません。
【関連記事】
- 4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー)
- 複数画像レイヤー同時生成できるAI「LayerDiffuse」、MML対応音楽生成AI「ChatMusician」、高性能なリップシンクAI「EMO」など重要論文5本を解説(生成AIウィークリー)
- 生成AIグラビアをグラビアカメラマンが作るとどうなる?第19回:ComfyUIで最新のStable Cascadeを試す+アナログ風の後処理ProPost (西川和久)
- 「春はあけぼの、YOYO白くなりゆく」をSuno AI作曲でラップにしてみた。清少納言が現代に生きていたら枕草子をどう歌っただろう(CloseBox)
- ゲーム内の「村人のセリフ」をChatGPTで大量生成する方法(第1回)。RPG村人が住む世界を作るまで