メタが最新LLM「Llama 3.2」を投入、ビジョンタスクでGPT-4oなどの主要モデルに迫る実力
AIMLAPIのテスト結果:浮き彫りになる両モデルの特性
広範なベンチマークテストに加え、個別のテスト結果も、Llama 3.2 90Bの特徴を知る上で役立つはずだ。 AIMLAPIによる、Llama 3.2 90BとGPT-4oの比較テストで、ビジョンタスクにおける両モデルの強み・弱みの一端が示されている。 このテストにおいて、GPT-4oは、テキスト認識や複雑な推論を要するタスクで優位性を示した。「The Hobbit」の章の一部内容を正確に識別し全文を再現できたほか、三角形の角度を求める数学問題でも正確な解答と詳細な解説を提供した。 一方、Llama 3.2 90B Visionは特定の視覚タスクで強みを発揮。5頭のシマウマを写した画像のオブジェクトカウントタスクでは、GPT-4oが誤って6頭とカウントしたのに対し、Llama 3.2 90Bは正確に5頭とカウントした。また、ウェブサイトのスケッチからHTMLコードを生成するタスクでも高い性能を示し、5点満点中4点を獲得した。 このテスト結果は、AI2Dの高スコアが示すようにLlama 3.2 90Bが高い画像認識能力を持つことを裏付けるものといえる。一方、数学のグラフ問題に関する結果は、MathVistaのスコア差にも示されるように、現状ではLlama 3.2 90Bの弱点であることを示唆している。この問題に加え、テキスト認識能力などが、今後の課題になると思われる。 マルチモーダル分野では、OpenAI、Anthropic、グーグルがリードを保ってきたが、メタのLlama 3.2 90Bに加え、Mistralが同社初のマルチモーダルモデル「Pixtral」をリリースするなど、開発競争は激化の様相だ。OpenAIは最新のo1モデルのマルチモーダル化、またAnthropicはClaude3.5 Opusが次の一手になると思われる。マルチモーダルモデルの精度がどこまで高まるのかが注目される。
文:細谷元(Livit)