OpenAIの最新研究が明かすAIのスキルレベル、AIエンジニアリングなど高度スキル領域も自動化される可能性
AIの機械学習エンジニアリングスキルを測定するMLEベンチマークの登場
AIによる自動化は、さまざまな領域へと拡大の一途をたどっている。その波は、単純作業だけでなく、高度な専門性を要する分野にまで及び始めている。現在、注目を集めているのが機械学習エンジニアリングだ。 OpenAIが2024年10月、AIシステムによる機械学習エンジニアリングの能力を測定する新しいベンチマーク「MLE-bench」を発表。この研究により、AIが高度な専門領域でも一定の成果を上げられる可能性が明らかになった。 このベンチマークは、機械学習コンテストのプラットフォームとして知られるKaggleの実世界データサイエンスコンペティション75件を活用し、AIシステムの能力を包括的に評価するもの。Kaggleとは、企業や研究機関が抱える実際のデータ分析の課題を、世界中のデータサイエンティストが競って解決するプラットフォーム。たとえば、新型コロナウイルスに関するmRNAワクチンの分解予測や、古代巻物の解読など、現実世界における重要な課題が次々と投じられている。 MLE-benchは、単なる計算能力やパターン認識能力の評価にとどまらない。機械学習エンジニアリングの分野で必要とされる計画立案、トラブルシューティング、イノベーション能力といった、より高度な能力の評価に主眼を置いている。 具体的な評価方法として、AIエージェントには与えられた課題に対してモデルの設計、データの準備、実験の実行など、実際の機械学習エンジニアリングのワークフローを模したタスクが求められる。これらの作業は、人間のデータサイエンティストが日々行っているタスクと同様のものだ。 このベンチマークで特筆すべきは、AIの性能を人間の実績と直接比較できる点にある。各コンペティションにおいて、AIのパフォーマンスは実際のKaggleリーダーボードと照らし合わせて評価される。これにより、AIが人間のデータサイエンティストと比較してどの程度の能力を持っているのか、客観的な評価が可能となる。 MLE-benchの開発には、AIの能力進化を正確に把握するという重要な目的がある。また、AIの能力に関する誇張された主張に対して、現実的な評価基準を提供する役割も果たす。