最新版ChatGPT o1の「思考プロセス」を覗いてみよう!より人間らしく進化した
OpenAIは9月12日(米国時間)、最新版生成AIモデル「o1」を発表しました。 「o1-preview」と「o1-mini」というモデル名は、これまでのGPTシリーズとは一線を画したネーミングですが、これにはもっともな理由があります。 OpenAIによればo1は、同社のほかのモデルとは異なり、より長い時間をかけて「考えて」から回答するようつくられているそうです。 しかも、問題をどのように解いたかについても示します。
o1は「報酬と罰」から学ぶ
OpenAIの発表では、この新しい「思考プロセス」により、o1は新しい方法を試したり、自分の間違いを考察できるとされています。 生物・化学・物理の分野では、o1の性能は「博士レベルの学生と同等」だったとされています。 また、国際数学オリンピックでは、GPT-4oの正答率が13%だったのに対し、o1は83%という結果が出ています。 OpenAIは、コーディングやプログラミングにおいても、o1が従来のモデルより優れていると強調しています。 OpenAIの研究チームを率いるJerry Tworek氏は、「The Verge」のインタビューにて、「o1は強化学習(Reinforcement Learning)をとおして訓練されている」と語っています。 つまりo1はトレーニングセットからパターンを探すのではなく「報酬と罰」から学ぶのです。 OpenAIは、その詳しい方法について明確には説明していませんが「この新しい思考モデルは、従来のモデルよりもハルシネーションを起こす頻度が少ない」としています。 ただし、まったく起こさないわけではありません。 o1には2つのバージョンがあります。 能力を最大限に発揮するo1-previewと、それより軽いバージョンながら同様のフレームワークで訓練されたo1-miniです。 OpenAIは、この2つのモデルは開発の早い段階で市場に出ているため、ウェブへのアクセスや、ファイル・画像のアップロードなど、GPT標準の機能が含まれていないと伝えています。