メタが最新LLM「Llama 3.2」を投入、ビジョンタスクでGPT-4oなどの主要モデルに迫る実力
一方、軽量モデルのLlama 3.2 1Bと3Bも、同クラスのモデルと比較して優れた性能を示している。一般的な知識を問うMMLUテストでは、Llama 3.2 3Bが63.4%のスコアを記録。これはGemma 2 2B ITの57.8%を上回るスコア。また、指示追従能力を測るIFEvalテストでは、Llama 3.2 3Bが77.4%という高スコアを達成、Gemma 2 2B ITの61.9%やPhi-3.5-mini ITの59.2%を大きく引き離す結果となった。 特筆すべきは、Llama 3.2の軽量モデルが長文脈理解においても優れた性能を示している点だ。12万8,000トークンの長さのテキストを扱うInfiniteBench/En.MCテストでは、Llama 3.2 3Bが63.3%のスコアを記録、Phi-3.5-mini ITの39.2%を大きく上回った。 これらのベンチマーク結果は、Llama 3.2が画像理解、テキスト処理、数学的推論、長文脈理解など、幅広い分野で高い能力を持つことを示唆するもの。特に90Bモデルは、多くの分野でGPT-4o-miniやClaude 3 Haikuといった競合モデルを凌駕しており、マルチモーダル分野でのメタの存在感を強める要素になっている。
Llama 3.2 90BとGPT-4o、Claude3.5 Sonnetとの比較
上記のベンチマークは、メタが自社で実施したもの。実際のLlama 3.2の実力を知るには、サードパーティによる評価も考慮する必要がある。 現状、やはり画像認識を含むマルチモーダル分野でトップを走るのは、OpenAIのGPT-4o、AnthropicのClaude3.5 Sonnet、グーグルのGemini1.5 Proだ。この3つのトップモデルに対して、Llama 3.2 90Bがどのようなパフォーマンスを示すのかが注目ポイントとなる。 最も参照されているリーダーボードの1つChatbot ArenaのVision版(2024年10月15日)を見てみると、GPT-4o(2024-09-03版)が1250ポイントで首位、これにGemini1.5 Proが1,232ポイント、Gemini1.5 Flashが1,210ポイント、GPT-4o(2024-05-13版)が1,208ポイント、Claude3.5 Sonnetが1,189ポイントで続く。 一方、Llama 3.2 90Bは、1,074ポイントで11位という状況にある。 このスコアと順位に対してさまざまな解釈ができるが、900億パラメータという比較的小さなモデルとしては健闘していると言えるだろう。公開されていないが、GPT-4oやClaude3.5などのトップモデルは、少なくともLlama 3.2 90Bの数倍の規模であると推察される。 実際にトップモデルとLlama 3.2 90Bのベンチマークスコアを比較してみたい。 まずMMMUでは、Claude3.5 Sonnetの68.3%、GPT-4oの69.1%、Gemini1.5 Proの62.2%に対してLlama 3.2 90Bは60.9%と若干差を開けられる結果となった。また、数学のグラフ問題解決能力を測るMathVistaでも、Claude3.5 Sonnetの67.7%、GPT-4oの63.8%に対し、Llama 3.2 90Bは57.3%と後塵を拝する状況だ。 一方、科学図表認識テストAI2Dでは、Claude3.5 Sonnetの94.7%、GPT-4oの94.2%に対し、Llama 3.2 90Bは92.3%と肉薄するスコアを記録。また文書の視覚的質問応答(DocVQA)テストでは、Llama 3.2 90Bが90.1%のスコアを記録し、GPT-4oの88.4%を上回った。また、グラフや図表の理解力を測るChartQAテストでは、Llama 3.2 90Bが85.5%、GPT-4oが85.7%とほぼ互角の精度を示した。