OpenAI、連続発表2日目は強化学習ファインチューニング
OpenAIは6日(米国時間)、平日12日連続で新たな発表を行なう「12 Days of OpenAI」の2日目の内容として、新たな強化学習ファインチューニングプログラム(Reinforcement Fine-Tuning Research Program)を発表した。 開発者や機械学習エンジニアが、特定のドメイン固有のタスクに最適化されたエキスパートモデルを作成するためのプログラム。数十から数千の高品質なタスクを使用してモデルをカスタマイズし、提供された参照回答でモデルの応答を評価する新たなカスタマイズ手法となる。 この技術により、モデルによる類似の問題に対する推論方法を強化し、その領域におけるタスクの精度向上が期待できるとする。客観的に「正しい」答えが得られるタスクに優れ、法律、保険、医療、金融、エンジニアリングなどの分野で良い結果が得られているという。 OpenAIでは、こうした分野でAIを活用する研究機関や大学、企業からの申請を受け付けており、アルファ版のReinforcement Fine-Tuning APIを提供。APIの一般公開に先立ち、APIの改善にフィードバックを求めていく。2025年初頭にはReinforcement Fine-Tuningを一般公開する予定。 この発表は、OpenAIが平日12日連続で新サービス等を紹介する「12 Days of OpenAI」の2日目のもの。初日はChatGPT Proと最新モデルo1の正式公開だった。
Impress Watch,臼田勤哉