OpenAI o1(ChatGPT o1)とは何かをやさしく解説、従来と何が違う? 特徴や使い方とは
o1の卓越した性能
OpenAIの新モデル「o1」は、サードパーティーによる各種ベンチマークテストにおいても、その卓越した性能を見せつけている。特に注目すべきは、LiveBench、LiveCodeBench、Chatbot Arenaという3つの主要ベンチマークでの評価結果だ。 LiveBenchのグローバル平均スコアにおいて、o1-previewは66.02を記録し、2位のClaude 3.5 Sonnet(59.80)を大きく引き離している。特筆すべきは、推論平均で68.00、数学平均で62.92、データ分析平均で63.97という高スコアを達成した点だ。これらの数値は、o1-previewが複雑な推論や数学的問題解決、データ解析において卓越した能力を持つことを示唆するもの。 一方、o1-miniは、グローバル平均で59.09を記録しつつ、特に推論平均では77.33という驚異的なスコアを達成した。これはo1-previewのスコアをも上回る数値となる。o1-miniが特定のタスク、とりわけ推論能力を要する問題に特化していることを裏付けるものと言える。 コーディング課題に特化したLiveCodeBenchでの評価も目を見張るものがある。注目したいのは、o1-miniが総合スコアでo1-previewを凌駕している点だろう。o1-miniはPass@1(1回目の試行で成功した割合)で73.1%を記録し、2位のo1-preview(57.3%)を大きく引き離しているのだ。難易度別の成績を見ると、o1-miniはEasy問題で94.3%、Medium問題で76.6%、Hard問題でも38.8%という高い成功率を記録。o1-miniがコーディングタスクにおいて、幅広い難易度に対応できる柔軟性を持っていることを示唆する数値だ。 Chatbot Arenaのリーダーボードでも、o1-previewが1位を獲得。アリーナスコア1355、95%信頼区間+12/-11を記録し、2位のChatGPT-4.0-latest(1335)を上回る。o1-miniも1324のスコアで3位につけており、OpenAIのモデルが上位を独占する形となった。 これらの結果は、o1シリーズが単なる進化版GPTモデルではなく、まったく新しいアプローチで開発された次世代AIモデルであることを裏付けるものと言えるだろう。