最新ベンチマークで判明、Claude3.5 Sonnetがトップも、オープンソースモデルが怒涛の追い上げ 大きく変化するAIモデルのランドスケープ
LiveBenchやChatbot Arenaでも大きな変動
Hallucination Indexのほか、LiveBenchやChatBot Arenaにおいても、多極化やオープンソースモデルの追い上げが顕著となっている。 LiveBenchとは、Abacus.AI、NVIDIA、ニューヨーク大学、メリーランド大学、南カリフォルニア大学の研究チームが開発した新しいベンチマークだ。このベンチマークの特徴は、データ汚染問題を最小限に抑えつつ、LLMの性能を幅広い側面から評価できる点にある。 LiveBenchの最新結果(2024年8月16日時点)によると、首位はAnthropicのClaude 3.5 Sonnetで、グローバル平均スコアは59.87に上る。2位はOpenAIのGPT-4oで、グローバル平均スコアは56.71。3位はOpenAIのChatGPT-4o(最新版)で、グローバル平均スコア54.71となっている。
注目すべきは、メタのオープンソースモデルLlama 3.1 405B Instructが5位に食い込んでいることだ。グローバル平均スコアは54.25と、GPT-4 Turbo(52.88)やGemini 1.5 Pro Exp 0801(51.56)を上回る結果となった。Llama 3.1 405Bは、特に推論項目では53.33と、2位のGPT-4oの54.67に迫る高スコアを記録。インストラクション遵守(IF Average)では78.47と、トップクラスの成績を残している。インストラクション遵守とは、AIモデルが与えられた指示をどれだけ正確に理解し、それに従って適切な応答や行動を取ることができるかどうかを測るテスト。 一方、LMSYSのChatbot Arena(2024年8月16日時点)でも、首位のChatGPT-4o(アリーナスコア1314)、2位のグーグルGemini 1.5 Pro-Exp(同1297)、3位のGPT-4o(2024年5月13日版、同1286)などに並び、メタのLlama 3.1 405B Instructが5位(同1263)に食い込んだほか、Llama 3.1 70B(同1246)が11位、グーグルのGemma2 27B(同1217)が19位となるなど、上位におけるオープンソースモデルの存在感が高まりを見せている。 これらの結果は、クローズドソースモデルが依然として優位性を保ちつつも、オープンソースモデルが急速にそのギャップを縮めていることを示唆するもの。メタのLlamaシリーズやグーグルのGemmaの躍進は目覚ましく、AI開発競争は今後さらに激化することが予想される。