ビル・ゲイツ氏も注目のInflection、GPT-4に匹敵する新モデル「Inflection-2.5」をリリース STEMで高い性能、計算量は40%に抑制
現在の最高峰Claude3 Opusとの比較
Inflection-2.5は、GPT-4に匹敵する性能を発揮するが、果たして現在の最高峰モデルと言われるClaude 3 Opusとはどう比較されるのだろうか。ここではその一端を探ってみたい。 Claude 3は、OpenAIの最大の競合Anthropicが開発した最新の大規模言語モデル。特に最上位モデルであるOpusは、OpenAIやグーグルの主要モデルを凌駕する性能を発揮し、MMLUやMATH、GSM8K、GPQAなどの学術的ベンチマークでトップスコアを記録したことで話題となっている。 Inflection-2.5のベンチマークスコアを見る限り、Claude 3 Opusには及ばない印象だ。たとえばMMLUの5ショットセッティングにおいて、Claude 3 Opusは88.2%の精度を達成しているのに対し、Inflection-2.5は85.5%。また数学ベンチマークテストMATHにおいては、Inflection-2.5は61%のGPT-4に及ばず、43.1%にとどまるが、Claude 3は61%を記録している。HumanEvalにおいてもInflection-2.5の73.8%に対し、Claude 3は84.9%とリードしている。 ただし、計算効率の面ではInflectionが優位に立つ可能性がある。前述の通り、Inflection-2.5はGPT-4の40%の計算量でほぼ同等の性能を発揮したとされる。一方、Claude 3 Opusの計算効率に関する情報は公開されていない。 また現時点でClaude 3はウェブ検索ができないため、リアルタイム性が求められる情報生成においては劣る可能性が高い。 とはいえ、長文読解能力については、Claude 3 Opusが頭一つ抜けている印象だ。筆者個人が試したところでも、Claude 3 Opusは数十ページに及ぶ論文を隅々まで理解し、質問の意図を的確に汲み取った上で、詳細かつ網羅的な比較を行う能力を有していることが確認できた。Inflection-2.5は、入力できるテキストが最大で4,000文字と少なく、数十ページに及ぶ論文情報を入力することはできない。 総じて、ベンチマークスコアの面ではClaude 3が、計算効率やウェブ検索の面ではInflection-2.5が優位に立っているといえる。ただ、もともと両モデルの狙いは異なる。Inflectionはパーソナルで親しみやすいアシスタントの開発を、Anthropicはあくまで企業向けのソリューションに注力している。 現在、生成AI市場は、GPT-4に匹敵、またはそれを超えるモデルが続々登場している状況。今後どのようなモデルが登場するのか、OpenAIはそれにどう応えるのか、各社の開発動向から目が離せない。
文:細谷元(Livit)