NVIDIA、LLMの精度を維持しつつサイズを半分にするアプローチ 巨大モデルの運用コスト低下への期待
クオンタイズではないアプローチ、プルーニングとディスティレーション
巨大モデルのサイズを縮小しつつ、精度を落とさない新たなアプローチとして、プルーニングとディスティレーションの組み合わせが注目を集めている。NVIDIAの研究チームが開発したこの手法は、Llama 3モデルを圧縮した「Llama-3.1-Minitron 4B」の開発に成功し、業界に衝撃を与えた。 プルーニングとは、モデルの重要度の低い部分を削除する技術だ。NVIDIAの研究者たちは、「デプス・プルーニング」と「ワイド・プルーニング」の2種類を適用。デプス・プルーニングはモデルの層を減らす手法で、ワイド・プルーニングは各層の幅(ニューロン数)を減らす手法だ。 一方、ディスティレーションは大きな「教師モデル」から小さな「生徒モデル」に知識を転移する技術。具体的には、教師モデルの出力を模倣するように生徒モデルを訓練する。この過程で、教師モデルの知識が凝縮された形で生徒モデルに転移される。 NVIDIAの研究者たちは、Llama 3.1の80億パラメータモデルを起点に、プルーニングとディスティレーションを適用して40億パラメータモデルを作成した。興味深いことに、940億トークンという比較的小規模なデータセットで学習させたにもかかわらず、Phi-2 2.7B(27億パラメータ)、Gemma2 2.6B(26億パラメータ)、Qwen2-1.5B(15億パラメータ)など、他の小型言語モデルに匹敵する性能を実現した。同規模モデルの学習トークン数は、たとえば、グーグルのGemma2 2Bで2兆トークン、Gemma2 7Bで6兆トークン、Llama3.1 8Bで15兆トークンなどとなっている。 この手法の最大の利点は、ゼロからモデルを学習させるよりも40倍少ないトークンで済むという、驚異的なコスト効率の高さにある。さらに、NVIDIAはこの手法で作成したモデルをオープンソースで公開しており、商用利用も可能としている。