ヘルスケアと金融分野でGPT-4超え、Writerの専門モデルが示すポストGPT－4の世界

9/30(月) 6:04配信

GPT-4の進化と競合モデルの台頭

OpenAIのフラッグシップ大規模言語モデル（LLM）であるGPT-4は、この1年で目覚ましい進化を遂げてきた。その進化の過程は、ベンチマークテスト「LiveBench」のスコアに如実に表れている。 LiveBenchは、Abacus.AI、NVIDIA、ニューヨーク大学、メリーランド大学、南カリフォルニア大学の研究チームが開発した新しいベンチマークだ。LiveBenchの特徴は、データ汚染問題を最小限に抑えつつ、LLMの性能をより正確に評価できる点にある。 2024年8月19日時点のLiveBenchリーダーボードにおける、GPT-4の最新バージョン「gpt-4o-2024-08-06」の総合スコアは56.71。GPT-4は、特に「推論」と「コーディング」分野での進歩が目覚ましい。推論平均スコアは、2023年6月13日版（gpt-4-0613）の34.67から、最新版では54.67へと20ポイント上昇。コーディング平均スコアも37.31から51.44へと、14ポイント以上増加した。数学分野でも着実な改善が見られる。数学平均スコアは36.22から52.29へと16ポイント上昇。データ分析分野でも44.03から52.89へと、約9ポイントの向上を達成した。このほか言語理解では、49.57から54.37へと約5ポイント上昇。指示遂行（IF）平均スコアも71.79から74.58へと、小幅ながら着実な向上を示している。これらのスコアの推移は、GPT-4が全方位的に能力を向上させてきたことを示すもの。特に推論とコーディング能力の飛躍的な向上は、GPT-4の実用性を大きく高めるものだと言えるだろう。しかし、競合モデルの台頭も際立っており、GPT-4の相対的な優位性は失われつつある。LiveBenchにおいて首位の座を占めているのは、AnthropicのClaude 3.5 Sonnetだ。総合スコア59.87を記録し、GPT-4を3ポイント以上引き離す。特筆すべきは、Claude 3.5 Sonnetのコーディング能力の高さだ。コーディング平均スコアで60.85を記録し、GPT-4の51.44を大きく上回っている。Anthropicのウェブサイトによると、Claude 3.5 Sonnetは独自のコーディング評価テストで、テスト問題の64%を解決。これは、以前のフラッグシップモデルClaude3 Opusの38%を大きく上回る結果であるという。メタのLlama 3.1 405Bも、LiveBenchの総合スコア54.25で5位に食い込み、オープンソースの可能性を見せつけている。特に指示遂行（IF）平均スコアは78.47を記録、この項目では、Llama 3.1 70B、Gemini1.5に次ぐ3位という成績だ。そのグーグルのGemini 1.5 Pro Expも総合スコア51.56で総合7位と健闘。別のベンチマーク／リーダーボードであるLMSYSのChatbot Arenaでは、一時GPT-4oを超え、1位の座を獲得した実力を備えている。このようにGPT-4は着実に進化を遂げているものの、競合モデルも急速に力をつけているのが生成AI市場の現状となる。

次ページは：医療分野でGPT-4を超えるモデルが登場

1/3ページ

Yahoo!ニュース

ヘルスケアと金融分野でGPT-4超え、Writerの専門モデルが示すポストGPT－4の世界

GPT-4の進化と競合モデルの台頭

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）