コーディングタスクでGPT-4超えるモデル続々、フランスや中国発のモデルが猛追
コーディング能力を見る際の注意点、新たな評価手法「LiveCodeBench」
LiveBenchと同じ問題意識のもと、コーディングに特化して開発されたのがLiveCodeBenchだ。 LiveCodeBenchのコード生成リーダーボードで現在1位となっているのは、Claude3.5 Sonnet。スコアは54.8%。これは1回目の試みで、コーディング問題を解けた割合が平均54.8%だったということ。2位はGPT-4oで45.6%、3位はGPT-4 Turboで44.7%、4位はDeepSeek Coder V2で42.8%だった。 興味深いのは、LiveCodeBenchを用いた評価により、以下のような傾向が観察されたことだ。 まず、データ汚染の可能性を示唆する傾向が挙げられる。DeepSeek、GPT-4o、Codestralといったモデルが、特定の日付以降に公開された問題で急激な性能低下を示すことが観察されたのだ。トレーニングデータに過去問題が含まれていることを示唆する挙動であり、データ汚染が疑われている。 これに関連して、HumanEvalへの過学習問題も観察されたという。LiveCodeBench開発チームの分析によると、一部のモデル、特にファインチューニングされたオープンソースモデルが、HumanEvalでは高いパフォーマンスを示すものの、LiveCodeBenchではそれほど良い成績を残せないことが明らかになった。これは、一部のモデルがHumanEvalにオーバーフィットしている可能性を示唆するもの。HumanEvalでは、LLMのコーディング能力を正確に測ることが困難になりつつある。 LiveCodeBenchの登場により、コード生成AIの評価方法に新たな視点が加わった。今後、この包括的な評価アプローチがどのように発展し、AI開発にどのような影響を与えていくか、注目が集まるところだ。
文:細谷元(Livit)