ビル・ゲイツ氏も注目のInflection、GPT-4に匹敵する新モデル「Inflection-2.5」をリリース STEMで高い性能、計算量は40%に抑制
Inflection-2.5とはどのようなモデルなのか?
2024年3月7日にリリースされたInflection-2.5は、Inflectionが開発した大規模言語モデルの最新版だ。2023年11月に発表されたInflection-2から大幅に進化し、OpenAIのGPT-4に匹敵する性能を実現したとされる。 同モデルの大きな特徴は、GPT-4の94%の性能をわずか40%の計算量で達成したことにある。Inflectionによると、Inflection-2.5は、特にSTEMの分野で特に大きな進歩を遂げ、この分野でGPT-4のパフォーマンスに近づいたとのことだ。 具体的には、高校から専門家レベルのタスクを測定するMMLUベンチマークで、GPT-4の87.3%に対しInflection-2.5は85.5%を獲得。ハンガリー数学試験では、GPT-4の68点に対し63点、物理学GREテストでは97パーセンタイルのGPT-4に対し、85パーセンタイルを記録するなど、STEM分野の試験で高いパフォーマンスを示した。 コーディング能力に関しては、Inflection-1から大幅な改善が見られた。Pythonコードの生成能力を評価するHumanEval+では、Inflection-1(35.4%)から飛躍的な進歩を遂げ、73.8%を達成。79.3%のGPT-4に迫るところまできている。 また、Inflection-2.5はGPT-4と同様にリアルタイムのウェブ検索機能を組み込んでおり、最新のイベントに関する質の高い情報を提供できるようになった。ただし、ウェブ検索を用いたベンチマークテストは存在しないため、実際のユーザー体験は若干異なる可能性がある。 実際、最新ニュースを調べてみたところ、比較的新しい情報を提示できており、リアルタイム性は高い印象を受けた。しかし、ニュースのリンクを表示させ、そのリンクをたどってみたところ、すべてが「404エラー」となり、正確にリンクを表示する能力はまだ備わっていない状態であることが見受けられた。 InflectionはすでにInflection-2.5をチャットボット「Pi」に実装済みだ。同社によると、最新モデルによりユーザーの満足度やエンゲージメント、リテンション率が大幅に改善し、Piの成長が加速しているという。 Piの1日のアクティブユーザー数は100万人、月間アクティブユーザー数は600万人に上る。Piとの平均会話時間は33分で、ユーザーの10%は1時間以上会話している。ユーザーの60%は翌週もPiを使い続けており、大手競合他社を上回る月次定着率を誇っているそうだ。