コーディングタスクでGPT-4超えるモデル続々、フランスや中国発のモデルが猛追
さらに、BashやJava、PHPにおけるHumanEvalテストでも競合モデルを上回る成績を示した。ただし、C++、C#、TypeScriptでは競合モデルの後塵を拝する結果に。しかし、全テストの平均スコアでは61.5%を記録、220億パラメータモデルでありながら、700億パラメータを持つLlama 3 70B(61.2%)を上回った。 Mistralは、Codestralを非商用ライセンスの下Hugging Faceで公開している。開発者は非商用、テスト、研究目的でこのモデルを利用することが可能だ。
中国発、GPT-4を上回るオープンソースモデル「DeepSeek Coder V2」
中国のDeepSeekが2024年6月に発表した「DeepSeek Coder V2」もコーディング分野で高い性能を示すモデルだ。このモデルは、同社が前月に発表したDeepSeek V2をベースに構築されており、コーディングと数学の両分野に特化してファインチューニングしたモデルとなる。 DeepSeek Coder V2が対応できる言語は300以上に上り、性能面では、GPT-4 Turbo、Claude 3 Opus、Gemini 1.5 Proといった主要クローズドソースモデルを上回るという。同社によると、DeepSeek Coder V2のコンテキストウィンドウは、上記Codestralを大きく上回る12万8,000トークン。より複雑で広範囲のコーディングタスクに対応できるほか、一般推論や言語理解の能力も高いとのこと。 コーディング能力を測るHumanEvalでは、90.2%を獲得。これは、GPT-4 Turbo(88%)、Gemini-1.5 Pro(83.5%)、Claude3 Opus(84.2%)などの主要クローズドソースモデルを超える数値だ。 このほかにも、コード生成能力を測るMBPP+、コード修正能力を測るAiderなどのテストでもGPT-4の最新版である「GPT-4o」をも超える性能を示している。 またDeepSeek Coder V2は、数学分野のベンチマークテストでも高いパフォーマンスを示している。比較的難度が高い数学問題を解くMATHテストでは、75.7%を獲得した。この時点ではGPT-4o(76.6%)に次ぐ2番目となり、大健闘したスコアといえる。 DeepSeek Coder V2のベースとなる汎用モデルDeepSeek V2は、Mixture of Experts(MoE)フレームワークに基づくモデル。DeepSeek Coder V2も、この(MoE)フレームワークを継承しており、今回高いスコアを記録できた要因の1つとされる。もう1つは、データの質と量にある。DeepSeekは、GitHubやCommonCrawlから収集したコードや数学関連のデータを中心とする6兆トークンの追加データセットで、ベースとなるV2モデルをトレーニングしたという。 DeepSeek Coder V2は現在、研究目的および無制限の商用利用を許可するMITライセンスの下で提供されている。ユーザーは、Hugging Faceを通じて160億および2,360億パラメータサイズのモデルをインストラクト版とベース版でダウンロードできる。