OpenAIの次期最強モデル「o3」、人間を超えて超人レベルに進化
もう追いつかれちまった…。 12日間にわたるOpenAIプレスイベントの最終日(12月20日)に発表された新しいAIモデル「o3 」と「o3-mini」は、昨年9月に出た「o1モデル」の後継モデルです。一般公開に先駆けて、安全性テストや研究目的の利用はもう解禁になっているわけですけど、数々のテストでとんでもないスコアを出しているっていう、もっぱらの評判ですよ。
「o3 」って何?
「o3」はOpenAIが開発した最新の推論モデルで、miniはその小型版です。 開発にあたってOpenAIが組み込んだのは「private chain of thought(外部から見えない思考の連鎖)」というプロセス。これは、回答を出す前にいったん立ち止まって内部の対話を精査し、先々を見越したプランを組み立てる工程を指し、「simulated reasoning(SR:シミュレーションに基づく理論化)」とも呼ばれます。 これがあるとないとでは大違い。そこが従来の大規模言語モデル(LLM)との一番の違いです。
難関テストで超人的スコアを出す
実際どの程度差があるのかというと、OpenAI曰く、視覚判断能力を占うARC-AGIのベンチマークにおいてo3は、軽い処理力が要求される条件下で75.7点、高い処理力が要求される条件下で87.5点をマーク(従来のAIでは最高でも55点どまりだった)し、人間の得点(85点)にとうとう並んだんのだといいます。 昨年の全米数学チャンピオン出場選抜テスト「AIME(American Invitational Mathematics Exam)*」でも96.7点を達成し、間違えたのはたったの1問でした。 *AIME:全米数学コンテスト選抜試験(AMC 12、AMC 10)で上位5%の高得点をおさめた者のみが招待される選抜試験。15の難問を3時間で解かなければならない。 さらにGPQA Diamondという院生レベルの生物、物理、化学の設問を含む試験では87.7点を獲得。 EpochAIが開発した難関ベンチマーク「Frontier Math」においては25.2%の問題に正しく回答できたというから驚きです。 25.2点という赤点みたいに見えますけど、Frontier Mathの設問は世界の数学の頭脳が集まって考えた「未発表」の難問ばかり。既存の回答のコピペでは絶対解けません。現にほかのモデルでは正答率2%を超えた試しがない超絶難関試験ですので、そこんとこお間違いのないように。 これにはオープンなAI開発を支援するNPO「ARC Prize Foundation」の会長もビックリしたみたいで、発表のライブストリームのとき「こうした結果を見た以上、自分もAIの能力に対する認識を改めなくてはならない」と言ってました。恐るべし、 SRモデル。