コーディングタスクでGPT-4超えるモデル続々、フランスや中国発のモデルが猛追
クローズドソース汎用モデルも、コーディングで飛躍的向上
オープンソースモデルの急速な進化がある中、OpenAIやAnthropicなどが提供するクローズドソース型の汎用モデルも、コーディング能力において大幅な改善を見せている。 Vellumが公開したHumanEvalコーディングリーダーボードでは、GPT-4oが90.2%でトップに立つ。これに続くのがGPT-4 Turboで87.1%、Claude 3 Opusが84.90%となっている。GPT-4オリジナル版の67%から、大きく飛躍している様子がうかがえる。ただし、このリーダーボードには、GPT-4oよりも新しいAnthropicのClaude3.5 Sonnetが含まれていない点に留意する必要がある。 HumanEvalではなく、より包括的かつ新しい方法でLLMを評価するベンチマークが続々登場しており、LLMを選ぶ際に重宝する存在となっている。 LiveBenchは、そのような新しい評価視点を提供する新規ベンチマークの1つ。LiveBenchの最新版(2024年6月25日)リーダーボードでは、Anthropicの最新モデルClaude3.5 Sonnetが総合スコア61.16でダントツの1位を獲得。2位のGPT-4o(54.96)、3位のGPT-4 Turbo(53)を大きく引き離す実力を見せているのだ。 Claude3.5 Sonnetが特に際立っているのがコーディング分野。スコアは63.21と、2位のGPT-4 Turbo(47.05)や3位のGPT-4o(46.37)を10ポイント以上引き離している。 LiveBenchでは、従来のベンチマークの問題である「データ汚染」の影響を排除する仕組みが導入されており、より正確にLLMの性能を測ることができるとされる。ここで言うデータ汚染とは、テスト問題がLLMのトレーニングデータセットに含まれる問題を指す。テスト情報がトレーニングデータに含まれると、そのテストでは良いパフォーマンスを発揮できるが、初めてみる質問/問題には対応できないという現象が発生するのだ。 HumanEvalは、長年広く使われてきたベンチマークテストであるため、その情報がトレーニングデータに含まれる可能性が高い。このためHumanEvalでは高いスコアが出やすいといわれている。 実際、上記のHumanEvalでGPT-4の各モデルを超える性能を示したDeepSeek Coder V2は、LiveBenchのコーディングテストではスコア41.05と、Claude3.5 Sonnetだけでなく、GPT-4 Turbo(47.05)やGPT-4o(46.37)にも及ばないことが明らかになった。