NVIDIA、LLMの精度を維持しつつサイズを半分にするアプローチ　巨大モデルの運用コスト低下への期待

11/9(土) 6:00配信

クオンタイズではないアプローチ、プルーニングとディスティレーション

巨大モデルのサイズを縮小しつつ、精度を落とさない新たなアプローチとして、プルーニングとディスティレーションの組み合わせが注目を集めている。NVIDIAの研究チームが開発したこの手法は、Llama 3モデルを圧縮した「Llama-3.1-Minitron 4B」の開発に成功し、業界に衝撃を与えた。プルーニングとは、モデルの重要度の低い部分を削除する技術だ。NVIDIAの研究者たちは、「デプス・プルーニング」と「ワイド・プルーニング」の2種類を適用。デプス・プルーニングはモデルの層を減らす手法で、ワイド・プルーニングは各層の幅（ニューロン数）を減らす手法だ。一方、ディスティレーションは大きな「教師モデル」から小さな「生徒モデル」に知識を転移する技術。具体的には、教師モデルの出力を模倣するように生徒モデルを訓練する。この過程で、教師モデルの知識が凝縮された形で生徒モデルに転移される。 NVIDIAの研究者たちは、Llama 3.1の80億パラメータモデルを起点に、プルーニングとディスティレーションを適用して40億パラメータモデルを作成した。興味深いことに、940億トークンという比較的小規模なデータセットで学習させたにもかかわらず、Phi-2 2.7B（27億パラメータ）、Gemma2 2.6B（26億パラメータ）、Qwen2-1.5B（15億パラメータ）など、他の小型言語モデルに匹敵する性能を実現した。同規模モデルの学習トークン数は、たとえば、グーグルのGemma2 2Bで2兆トークン、Gemma2 7Bで6兆トークン、Llama3.1 8Bで15兆トークンなどとなっている。この手法の最大の利点は、ゼロからモデルを学習させるよりも40倍少ないトークンで済むという、驚異的なコスト効率の高さにある。さらに、NVIDIAはこの手法で作成したモデルをオープンソースで公開しており、商用利用も可能としている。

次ページは：プルーニングとディスティレーション、その効果とは？

2/3ページ

Yahoo!ニュース

NVIDIA、LLMの精度を維持しつつサイズを半分にするアプローチ　巨大モデルの運用コスト低下への期待

クオンタイズではないアプローチ、プルーニングとディスティレーション

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）