AWSとマイクロソフトがクラウドサービスに導入 Mistralオープンソースモデルの強み
GPT-4に迫るMistral Large
一方、Mistral Largeは2024年2月にリリースされたMistralの最新かつ最先端の商用言語モデルだ。La PlatefomeとAzureから利用可能となった。 Mistral Largeは複雑な多言語の推論タスク、テキスト理解、変換、コード生成などでトップクラスの性能を発揮する。APIを通じて利用可能なモデルとしてはGPT-4に次ぐ性能を誇っている。 英語、フランス語、スペイン語、ドイツ語、イタリア語に精通し、文法と文化的文脈の深い理解を備える。3万2,000トークンのコンテキストウィンドウにより大規模なドキュメントから正確な情報を呼び出すことも可能だ。 MMRUやHellaSwag、Arc Challenge、TriviaQA、TruthfulQAなどの常識的推論や知識を問うベンチマークテストで高スコアを獲得。MMRUは数学、物理学、歴史などに関する問題を含むマルチタスク能力を測るベンチマーク。一方、HellaSwagは常識的推論能力、Arc Challengeは物語や文章における因果関係や動機づけを理解する能力、TriviaQAは知識の幅広さと深さ、TruthfulQAは言語モデルが真実の情報を提供できるかどうかを評価するベンチマーク。 Mixtral 8x7B同様に、多言語タスク(英語やフランス語など)でもLLaMA 2 70Bを大きく上回った。また、コーディングと数学のタスクでもトップクラスの成績を収めている。Artificial Analysisのまとめでは、Mistral Largeの1秒あたりの処理トークン数は36トークンとMixtral 8x7Bに比べると3分の1ほどとなり、処理速度は若干遅くなる。ただし、16トークンのGPT-4 Turboに比べると2倍以上の速度を有しており、高い精度を保ちつつ、スピードを重視するアプリケーションで重宝される可能性が高い。 両者に共通するのは、高い効率性と多言語対応力(英語と欧州言語)、そして高度な推論能力。Mixtralが研究やオープンソース活用、個人利用に適している一方、Mistral Largeは商用アプリケーションの開発に最適といえるだろう。 AWSとマイクロソフトの競争が激化するクラウド市場だが、両者とも生成AI関連の取り組みを緩める気配はない。 AWSは2024年3月、AnthropicのClaude3をAmazon Bedrockに追加したと発表。Claude3は多くのベンチマークでGPT-4を上回る性能を示したとされる驚異のモデル。これまでGPT-4が市場における最高峰モデルとして君臨してきたが、Claude3の登場を機に、GPT-4を凌駕するモデルが続々登場する可能性が高まっている。OpenAI自体もGPT-4にとどまらず、後継モデル「GPT-5」の投入に向け動いているとの観測もある。 Mistralやメタを含め、各社の新モデル開発競争はさらに加速しそうだ。
文:細谷元(Livit)