Phi-3.5とは何かを解説、マイクロソフトの「GPT-4o miniとほぼ互角」AIの真価
GPT-4o miniと「ほぼ互角」の実力とは
Phi-3.5-MoE-instructモデルのパフォーマンスは、AIコミュニティで高い注目を集めている。このモデルが多くのサードパーティベンチマークテストで、グーグルのGemini 1.5 Flash、メタのLlama 3.1、そしてOpenAIのGPT-4o miniを一部のケースで上回る結果を示しているためだ。 具体的な数値を見てみよう。最も広く利用されるベンチマークの1つMMLU(5-shot)では78.9%のスコアを達成し、Mistral-Nemo-12B-instruct-2407の67.2%、Llama-3.1-8B-instructの68.1%を大きく上回った。さらに注目すべきは、GPT-4o mini(チャット版)の77.2%をも超える結果を出していることだ。 推論能力を測るARC Challenge(10-shot)では91.0%を記録し、Mistral-Nemo-12B-instruct-2407の84.8%、Llama-3.1-8B-instructの83.1%を上回っている。GPT-4o miniの93.5%には及ばないものの、その差はわずかだ。 数学分野のGSM8K(8-shot、CoT)では88.7%を達成し、Mistral-Nemo-12B-instruct-2407の84.2%、Llama-3.1-8B-instructの82.4%を上回った。ここでもGPT-4o miniの91.3%に迫る結果となっている。 多言語能力においても、Phi-3.5-MoE-instructは強みを持つ。多言語MMULでは69.9%を達成し、Mistral-Nemo-12B-instruct-2407の58.9%、Llama-3.1-8B-instructの56.2%を大きく引き離している。ここでもGPT-4o miniの72.9%に迫る結果となった。 これらの結果は、Phi-3.5-MoE-instructが66億の有効パラメータしか持たないにもかかわらず、はるかに大規模なモデルと同等以上の言語理解能力と数学能力を達成していることを示している。 ただし、マイクロソフト自身も認めているように、モデルサイズによる制限も存在する。特に事実に関する知識の保存能力には限界があり、生成される回答には不正確な事実が含まれる可能性もあるという。しかし、マイクロソフトは、この弱点は検索エンジンとPhi-3.5を組み合わせることで解決できると考えている。