最新版ChatGPT o1の「思考プロセス」を覗いてみよう！より人間らしく進化した

9/25(水) 21:41配信

OpenAIは9月12日（米国時間）、最新版生成AIモデル「o1」を発表しました。「o1-preview」と「o1-mini」というモデル名は、これまでのGPTシリーズとは一線を画したネーミングですが、これにはもっともな理由があります。 OpenAIによればo1は、同社のほかのモデルとは異なり、より長い時間をかけて「考えて」から回答するようつくられているそうです。しかも、問題をどのように解いたかについても示します。

o1は「報酬と罰」から学ぶ

OpenAIの発表では、この新しい「思考プロセス」により、o1は新しい方法を試したり、自分の間違いを考察できるとされています。生物・化学・物理の分野では、o1の性能は「博士レベルの学生と同等」だったとされています。また、国際数学オリンピックでは、GPT-4oの正答率が13％だったのに対し、o1は83％という結果が出ています。 OpenAIは、コーディングやプログラミングにおいても、o1が従来のモデルより優れていると強調しています。 OpenAIの研究チームを率いるJerry Tworek氏は、「The Verge」のインタビューにて、「o1は強化学習（Reinforcement Learning）をとおして訓練されている」と語っています。つまりo1はトレーニングセットからパターンを探すのではなく「報酬と罰」から学ぶのです。 OpenAIは、その詳しい方法について明確には説明していませんが「この新しい思考モデルは、従来のモデルよりもハルシネーションを起こす頻度が少ない」としています。ただし、まったく起こさないわけではありません。 o1には2つのバージョンがあります。能力を最大限に発揮するo1-previewと、それより軽いバージョンながら同様のフレームワークで訓練されたo1-miniです。 OpenAIは、この2つのモデルは開発の早い段階で市場に出ているため、ウェブへのアクセスや、ファイル・画像のアップロードなど、GPT標準の機能が含まれていないと伝えています。

次ページは：o1-previewに聞いてみた

1/5ページ

Yahoo!ニュース

最新版ChatGPT o1の「思考プロセス」を覗いてみよう！より人間らしく進化した

o1は「報酬と罰」から学ぶ

【関連記事】

アクセスランキング（経済総合）

雑誌アクセスランキング（経済）