メタが最新LLM「Llama 3.2」を投入、ビジョンタスクでGPT-4oなどの主要モデルに迫る実力
Llama 3.2モデルの特徴
メタは2024年9月25日、最新AIモデル「Llama 3.2」をリリースした。Llama 3.2は、小型~中型の視覚言語モデル(11Bと90B)と、エッジデバイスや携帯端末で動作可能な軽量テキストモデル(1Bと3B)を含む、幅広いニーズに対応するモデル群だ。 Llama 3.2の最大の特徴は、11Bと90Bモデルが画像理解タスクに対応した点にある。これにより、文書の理解、画像のキャプション生成、視覚的な物体特定などが可能になった。グラフや地図を用いた複雑な質問への回答や、画像内容の詳細な説明といったタスクをこなせる。 一方、1Bと3Bの軽量モデルは、多言語テキスト生成やツール呼び出し機能を備え、オンデバイスでのエージェントアプリケーション開発を可能にする。これらのモデルは、クアルコムやメディアテック、ARMのハードウェアに対応しており、プライバシーを保ちつつ高速処理ができるようになる。また、Llama 3.2の1Bと3Bモデルは、12万8,000トークンというコンテキストウィンドウをサポートしている。 Llama 3.2モデルはllama.comとHugging Faceでダウンロードできるほか、25社以上のエコシステムパートナープラットフォームでも利用できるという。パートナーには、AMD、AWS、Databricks、Dell、グーグルクラウド、Groq、IBM、インテル、マイクロソフトAzure、NVIDIA、オラクルクラウド、Snowflakeなどが含まれる。また、オンデバイスパートナーとしてARM、メディアテック、クアルコムと協力しつつ、幅広いサービスを提供する計画だ。
Llama 3.2、ベンチマーク比較
Llama 3.2の性能を評価するため、メタは様々なベンチマークテストを実施した。その結果、Llama 3.2は多くの分野で競合モデルと互角以上のパフォーマンスを示したという。特に画像理解タスクにおいて顕著な成果を挙げたとされる。 画像関連タスクでは、Llama 3.2の90Bモデルが特に優れた成績を収めた。たとえば、大学レベルの問題や数学的推論を評価するMMMUベンチマークで、Llama 3.2 90Bは60.3%のスコアを記録。これはClaude 3 Haikuの50.2%を大きく上回り、GPT-4o-miniの59.4%をも凌駕する数字となる。 さらに、グラフや図表の理解力を測るChartQAテストでは、Llama 3.2 90Bは85.5%という高スコアを達成。Claude 3 Haikuの81.7%を上回る結果となった。Llama 3.2が複雑な視覚情報を正確に解釈し、それに基づいて推論を行う能力が高いことを示唆するスコアとなる。 テキスト処理能力においても、Llama 3.2は強さを見せた。一般的な知識や推論能力を測るMMLUテストでは、86.0%のスコアを記録。これはClaude 3 Haikuの75.2%を大きく上回るだけでなく、GPT-4o-miniの82.0%も上回る数字。数学能力を測るMATHベンチマークでも、Llama 3.2 90Bは68.0%のスコアを達成し、Claude 3 Haikuの38.9%を大きく引き離した。