Mistral AIの「Pixtral 12B」「Pixtral Large」とは何か? 手書きからWeb制作も可能に
テキストだけでなく、画像認識能力も持つ、いわゆるマルチモーダルモデルとして、OpenAIのGPT-4o、アンソロピックのClaude3.5 Sonnet、またオープンソースではマイクロソフトのPhi-3.5などが人気を博している。これに対し、Mistralが2024年9月と11月にリリースしたマルチモーダルモデル「Pixtral 12B」「Pixtral Large」がその人気リストの上位に食い込むかもしれない。強みは、画像認識能力に加え、テキスト処理能力も高い点にある。Pixtralとはどのようなモデルなのか、その詳細を解説したい。 【詳細な図や写真】Pixtral 12Bと主要オープンモデルのベンチマーク比較(出典:MistralのWebサイト)
マルチモーダルAI「Pixtral 12B」「Pixtral Large」とは?
フランスのAIスタートアップMistral AIは9月、同社初となるマルチモーダルAIモデル「Pixtral 12B」をリリースした。 Pixtral 12Bとは、テキストと画像を組み合わせた分析が可能なマルチモーダルAIモデルで、高いテキスト処理能力に加えて、画像認識能力を持つのが特徴だ。 Pixtral 12Bは、120億のパラメータを持ち、画像とテキストデータを交互に学習させる手法で訓練された。この学習方法により、マルチモーダルタスクでの高いパフォーマンスを実現しつつ、テキストのみのベンチマークでも高い性能を維持しているという。 さらにMistralは11月、7月に発表された大規模言語モデル「Mistral Large 2」をベースに画像を理解できるよう調整した「Pixtral Large」を発表。Pixtral Largeのパラメータ数は1240億にのぼり、多様な言語を取り扱える。 Pixtralのアーキテクチャは、画像をトークン化するビジョンエンコーダーと、テキストトークンを予測するマルチモーダルトランスフォーマーデコーダーの2つのコンポーネントで構成されている。 ビジョンエンコーダーは4億のパラメータを持ち、ゼロから訓練された。一方、マルチモーダルデコーダーは、Mistralの既存モデル「Mistral Nemo」をベースに構築されている。 Pixtralの特徴は、可変サイズの画像に対応していることだ。Mistralによると、画像を16×16ピクセルのパッチに分割し、各パッチを画像トークンに変換する方式を採用。これにより、画像の元の解像度とアスペクト比を保ったまま処理が可能となり、複雑な図表やドキュメントの高解像度での理解や、小さなアイコンやクリップアートの高速推論など、柔軟な対応が可能になった。 また、12万8000トークンの長いコンテキストウィンドウをサポートしており、この範囲内で任意の数の画像を処理できる点も特徴だ。これにより、複数の画像を含む長文のドキュメントや、画像と詳細なテキスト説明が混在するコンテンツなどを、一度に分析することができる。 Pixtralのリリースにより、MistralはOpenAI、アンソロピック、グーグルなどが主導するマルチモーダルAI開発の競争に本格参入したことになる。Pixtral 12Bは120億パラメータという比較的小規模なモデルでありながら、大規模モデルに匹敵する性能を示しており、新しく1240億のパラメータを持つPixtral Largeの登場で、今後のAI市場に与える影響は大きいと予想される。