NVIDIA、LLMの精度を維持しつつサイズを半分にするアプローチ 巨大モデルの運用コスト低下への期待
プルーニングとディスティレーション、その効果とは?
NVIDIAの研究チームが開発したプルーニングとディスティレーションアプローチの効果は、ベンチマークテストの結果に如実に表れている。 Llama-3.1-Minitron 4Bモデル(ワイド・プルーニング版)は、さまざまなタスクで既存の小型モデルを凌駕する性能を示した。たとえば、MMLUタスク(多岐にわたる分野の知識や推論能力を測定)では60.5%のスコアを達成し、Gemma2 2Bの51.3%を大きく上回った。また起点となったLlama-3.1 8Bの65.3%に近い数値を記録した点も特筆に値する。さらにHellaSwagタスク(文脈理解と常識的推論を評価)でも76.1%のスコアを記録し、Gemma2の73%を上回った。 ARC-Challengeタスク(科学的推論能力を測定)では55.6%のスコアを記録。ここでもGemma2の55.4%を上回る結果となった。GSM8Kタスク(数学的問題解決能力を評価)では41.2%を達成し、Gemma2 2Bの23.9%を大きく上回った。この41.2%という数字は、2倍ほど規模が大きなGemma 7Bの52%、Llama-3.1 8Bの48.6%に近い値で、Mistral 7Bの37%を超える水準となる。コーディング能力を測るMBPPタスク(基本的なプログラミング問題の解決能力を評価)では32.4%を記録、Gemma2 2Bの29%を上回った。 NVIDIAのこのMinitron手法は、他の圧縮手法と比較しても優れた性能を発揮できる可能性がある点も注目に値する。たとえば、LLMPruner、SliceGPT、LaCo、ShortGPTなどの手法で圧縮されたモデルと別のMinitronモデルを比較した場合、MMLUタスクでMinitronモデルが58.6%を記録、他の圧縮モデルは23.33%から43.96にとどまったのだ。 これらの結果は、NVIDIAのプルーニングとディスティレーションアプローチが、モデルサイズの縮小と高い性能の両立を実現していることを示すもの。このような圧縮技術はどのような進化を見せるのか、今後の研究開発にさらなる期待が寄せられる。
文:細谷元(Livit)