メタのLlama3.1 405BがGPT-4に匹敵、AI市場で起こるオープンソース変革、合成データでAI開発はさらに加速へ
Llama3.1 405B、ベンチマークの詳細
Llama3.1 405Bの性能を詳しく見ていきたい。メタによると、150以上のベンチマークデータセットを用いて評価を行ったという。これらのデータセットは広範な言語をカバーしており、さらに実世界のシナリオを想定した人間による評価も実施されている。 一般的な知識や推論能力を測るMMLUでは88.6%を獲得し、GPT-4oの88.7%、Claude 3.5 Sonnetの88.3%と肩を並べている。より難度の高いMMLU PROでは73.3%を記録し、GPT-4oの74.0%に肉薄する結果を示した。 コーディング能力を測るHumanEvalでは89.0%を獲得。GPT-4oの90.2%、Claude 3.5 Sonnetの92.0%には及ばないものの、トップの水準を記録。数学的問題解決能力を測るGSM8Kでは96.8%という高得点を記録し、GPT-4oの96.1%、Claude 3.5 Sonnetの96.4%を超えた。 推論能力を測るARC Challengeでは96.9%を獲得し、GPT-4oの96.7%、Claude 3.5 Sonnetの96.7%をわずかながら上回った。一方、より高度な推論能力を要するGPQAでは51.1%にとどまり、GPT-4oの53.6%、Claude 3.5 Sonnetの59.4%には及ばなかった。 長文理解能力を測るZeroSCROLLS/QuALITYでは95.2%を記録し、GPT-4(0125)と同率となった。また、多言語での数学的問題解決能力を測るMultilingual MGSMでは91.6%を獲得し、GPT-4oの90.5%を上回り、Claude 3.5 Sonnetと肩を並べた。 これらのベンチマーク結果は、Llama3.1 405Bが総合的に高い性能を持つことを示している。特に一般的な知識、コーディング、数学、長文理解、多言語能力において、クローズドソースの最先端モデルと互角以上の性能を発揮している点は注目に値する。