Mistral AIの「Pixtral 12B」「Pixtral Large」とは何か? 手書きからWeb制作も可能に
ベンチマーク詳細、その精度、その強みとは?
「Pixtral 12B」「Pixtral Large」の性能を評価するため、Mistralは複数のベンチマークテストを実施し、その結果を公開している。 まずPixtral 12Bについては、同規模のオープンソースモデルを大きく上回るだけでなく、最新のモデルにはかなわないながら、一部の大規模クローズドモデルに匹敵する性能を実現したことが示された。 数学的視覚推論を評価するMathvista(CoT)では58.3%、マルチモーダル理解力を測るMMMU(CoT)では52.0%、チャート理解力を測るChartQA(CoT)では81.8%のスコアを記録。また、文書視覚質問応答を評価するDocVQA(ANLS)では90.7%、一般的な視覚質問応答能力を測るVQAv2(VQA Match)では78.6%を達成している。 これらのスコアは、マイクロソフトのビジョンモデルPhi-3.5 Visionを大きく上回る。たとえば、Mathvista(CoT)ではPhi-3.5 Visionの39.3%に対し、Pixtral 12Bは58.3%と、その差は19ポイントにも及ぶ。MMMU(CoT)でも38.3%対52.0%と、13.7ポイントの差をつけている。 特筆すべきは、Pixtral 12Bが一部の大規模モデルをも凌駕している点だ。720億パラメータを持つLLaVA-OV 72Bと比較すると、ChartQA(CoT)では81.8%対66.9%とPixtral 12Bが優位に立つ。 一方、Pixtral Largeは、GPT-4o、Claude-3.5 Sonnet、Gemini-1.5 Proなどの錚々たる大規模言語モデルと比較しても正面からそれらの各種スコアを上回る。MM-MT-Benchでは、これらを上回ってトップになったと主張している。 Mistralは、Pixtralの強みとして、マルチモーダルタスクと従来のテキストタスクの両方で高いパフォーマンスを発揮する点を挙げている。特に指示追従(instruction following)能力において、他のオープンソースマルチモーダルモデルを大きく上回ると指摘する。テキストのみの指示追従能力を評価するIF-EvalとMT-Benchでは、最も近いオープンソースモデルと比較して20%の相対的改善を達成したという。 また、Mistralは独自にマルチモーダル版のIF-EvalとMT-Benchを作成し、Pixtral 12Bの評価を行っている。これらのベンチマークでも、Pixtral 12Bは他のオープンソースモデルを上回る結果を示したとされる。 Pixtralは、複雑な図表や文書の理解、チャート分析、マルチモーダル推論、指示追従などのタスクで大いに活用できそうだ。また画像の解像度とアスペクト比を保ったまま処理できる点も実際のユースケースに生きてくると思われる。