OpenAI「o3」は本当に“AGI”に近いのか? AGIレベルを評価する「ARC-AGI」の開発者が解説(生成AIクローズアップ)
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 【この記事の他の写真を見る】 今回は、OpenAIが最近発表したAIモデル「o3」と汎用人工知能(AGI)について、AGIの性能を評価するベンチマーク「ARC-AGI」の開発者フランソワ・ショレ氏(Googleの研究者)が考察した記事に注目します。 ARC-AGIは、色付きのグリッドのパターンを認識し、その関係性を見出す一連のテストで構成されています。これらのテストは、人間にとっては比較的簡単ですが、AIにとっては非常に困難な課題となっています。 人間の平均スコアは84%である一方、OpenAIの前モデルである「o1-Preview」のスコアは13.33%に留まっています。この差から分かるように、AIがこのテストで高スコアを達成することは極めて困難です。 しかし、今回の発表によると、o3は75.7%という驚異的なスコアを達成しました。 ▲ARC Prize FoundationのGreg Kamradt会長(左) これはパブリックリーダーボード(ARC-AGI-Pub)で発表された計算コスト1万ドル以内の制限に収まるもので、1タスクあたり約20ドルで達成しています。当然パブリックリーダーボードで1位を獲得しています。 さらに、o3は人間の平均スコア84%を超える87.5%という数字も叩き出しました。ただし、パブリックリーダーボード制限の172倍の計算能力で挑んだ結果です。人間のコスト(1タスク5ドル)と比較すると雲泥の差になり、力ずくの結果とも言えます。それでも人間レベルのパフォーマンスに近づいている高いスコアなのは間違いありません。これらの結果をブレイクスルーだと述べています。 ▲OpenAIのAIモデルにおけるARC-AGIのスコア しかし、実際のところ、o3はまだAGIではないとも述べています。o3は、まだいくつかの非常に簡単なタスクに失敗しています。特に、大量の計算能力を使ってもo3では解決できなかったものの、人間にとっては簡単なパブリック評価タスクの約9%について非常に興味を持っていると言います。例えば、次の画像で示しているのがo3が間違えた問題の一つです。 ▲3つのインプットとアウトプットのペアを学習して、問題(右下)を回答 現在、2022年から開発が進められている新バージョン「ARC-AGI-2」(2025年の第1四半期後半を実施予定)があり、高い計算能力のAIでもスコアが30%未満に低下する可能性があると言います。一方、人間はトレーニングなしでも95%を超えるスコアを出すことができると述べています。 このようにベンチマーク側も進化します。言い換えると、「人間には簡単だがAIには難しいタスクを作成するという作業が不可能になったとき、AGIが到来したということになる」と述べています。
TechnoEdge 山下裕毅(Seamless)
【関連記事】
- AIは無知をどこまで認識できるか? 人類が回答不可能な質問をGPTやClaude、Geminiなどに大量にぶつけてみた(生成AIクローズアップ)
- MicrosoftのGPT-4o超え小型言語AI「Phi-4」、カメラ越しの現実をリアルタイムに理解するオープンソースAI「IXC2.5-OL」など生成AI技術5つを解説(生成AIウィークリー)
- Google怒涛の新作AI発表。1位獲得の言語AI「Gemini-Exp-1206」、画像1枚からプレイ可能な3Dゲーム生成AI「Genie 2」、動画生成AI「Veo」、高性能天気予報AI「GenCast」など生成AI技術5つを解説(生成AIウィークリー)
- AIで「量子もつれ」の新たな生成方法を発見。量子インターネット構築が容易になる可能性(生成AIクローズアップ)