ヘルスケアと金融分野でGPT-4超え、Writerの専門モデルが示すポストGPT-4の世界
GPT-4の進化と競合モデルの台頭
OpenAIのフラッグシップ大規模言語モデル(LLM)であるGPT-4は、この1年で目覚ましい進化を遂げてきた。その進化の過程は、ベンチマークテスト「LiveBench」のスコアに如実に表れている。 LiveBenchは、Abacus.AI、NVIDIA、ニューヨーク大学、メリーランド大学、南カリフォルニア大学の研究チームが開発した新しいベンチマークだ。LiveBenchの特徴は、データ汚染問題を最小限に抑えつつ、LLMの性能をより正確に評価できる点にある。 2024年8月19日時点のLiveBenchリーダーボードにおける、GPT-4の最新バージョン「gpt-4o-2024-08-06」の総合スコアは56.71。GPT-4は、特に「推論」と「コーディング」分野での進歩が目覚ましい。 推論平均スコアは、2023年6月13日版(gpt-4-0613)の34.67から、最新版では54.67へと20ポイント上昇。コーディング平均スコアも37.31から51.44へと、14ポイント以上増加した。数学分野でも着実な改善が見られる。数学平均スコアは36.22から52.29へと16ポイント上昇。データ分析分野でも44.03から52.89へと、約9ポイントの向上を達成した。このほか言語理解では、49.57から54.37へと約5ポイント上昇。指示遂行(IF)平均スコアも71.79から74.58へと、小幅ながら着実な向上を示している。 これらのスコアの推移は、GPT-4が全方位的に能力を向上させてきたことを示すもの。特に推論とコーディング能力の飛躍的な向上は、GPT-4の実用性を大きく高めるものだと言えるだろう。 しかし、競合モデルの台頭も際立っており、GPT-4の相対的な優位性は失われつつある。LiveBenchにおいて首位の座を占めているのは、AnthropicのClaude 3.5 Sonnetだ。総合スコア59.87を記録し、GPT-4を3ポイント以上引き離す。 特筆すべきは、Claude 3.5 Sonnetのコーディング能力の高さだ。コーディング平均スコアで60.85を記録し、GPT-4の51.44を大きく上回っている。Anthropicのウェブサイトによると、Claude 3.5 Sonnetは独自のコーディング評価テストで、テスト問題の64%を解決。これは、以前のフラッグシップモデルClaude3 Opusの38%を大きく上回る結果であるという。 メタのLlama 3.1 405Bも、LiveBenchの総合スコア54.25で5位に食い込み、オープンソースの可能性を見せつけている。特に指示遂行(IF)平均スコアは78.47を記録、この項目では、Llama 3.1 70B、Gemini1.5に次ぐ3位という成績だ。そのグーグルのGemini 1.5 Pro Expも総合スコア51.56で総合7位と健闘。別のベンチマーク/リーダーボードであるLMSYSのChatbot Arenaでは、一時GPT-4oを超え、1位の座を獲得した実力を備えている。 このようにGPT-4は着実に進化を遂げているものの、競合モデルも急速に力をつけているのが生成AI市場の現状となる。