4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説（生成AIウィークリー）

3/11(月) 10:37配信

画面を見てキーボードとマウスを自律的に操作するAI「CRADLE」

1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第37回目は、生成AI最新論文の概要5つを紹介します。生成AIグラビア（画像ギャラリー）

24GBメモリの消費者向けGPUでも大規模言語モデルをゼロから事前学習できる可能性を示した手法「GaLore」、Metaなどが発表

現在、LLMをゼロから学習するには、大容量のメモリを搭載したGPUが必要で、膨大な計算リソースを消費します。LLaMA 7Bモデルをゼロから学習するには、少なくとも58GBのメモリが必要とされています。ファインチューニング時のメモリ要件を減らす手法（例えばLoRA）は大きく進歩していますが、LLMの事前学習における有効性は限定的です。この障壁を克服し、LLMの学習全体を通してメモリを大幅に削減する手法「Gradient Low-rank Projection」（GaLore）を考案しました。GaLoreは、完全なパラメータ学習を可能にしつつ、一般的なLoRA手法よりもメモリ効率のよい学習を実現します。 LLaMA 1Bと7Bのアーキテクチャを使い、最大19.7Bトークンの大規模なC4データセットで事前学習実験を行った結果、GaLoreはオプティマイザのメモリ使用量を最大65.5%削減しつつ、完全ランクの学習と同等の効率と性能を達成しました。さらに8ビットの最適化手法と組み合わせることで、オプティマイザのメモリを最大82.5%、訓練全体のメモリを63.3%削減できました。また、事前学習済みのRoBERTaをGLUEタスクでファインチューニングした際にも、LoRAと同等以上の性能を達成しました。特筆すべきは、7BパラメータのLLaMAモデルを、24GBメモリの民生用GPU（NVIDIA RTX 4090）上で、モデル並列化やアクティベーションのチェックポイント、オフロードなしでゼロから学習できる可能性を示した点です。ただし、24GBメモリのGPU1台で7Bモデルを事前学習するのにどの程度の時間を要したかなどの詳細については言及されていません。

次ページは：1枚の画像から3Dモデルを高速生成するAI「TripoSR」、Stability AIなどが開発

1/3ページ

Yahoo!ニュース

4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説（生成AIウィークリー）

24GBメモリの消費者向けGPUでも大規模言語モデルをゼロから事前学習できる可能性を示した手法「GaLore」、Metaなどが発表

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）