最新ベンチマークで判明、Claude3.5 Sonnetがトップも、オープンソースモデルが怒涛の追い上げ 大きく変化するAIモデルのランドスケープ
最新ベンチマーク、「Hallucination Index」
1年ほど前まで、大規模言語モデル(LLM)は、いわゆるクローズドソースモデル、特にGPT-4が圧倒的な性能を誇っており、さまざまなベンチマーク/リーダーボードにおいて、トップを独占する状態が続いていた。 しかし現在、その状況は大きく変わりつつある。競合クローズドソースモデルの追い上げに加え、オープンソースモデルの躍進により、多極化が進んでいるのだ。開発者やユーザーにとってGPT-4以外の選択肢が大幅に増えたことを意味しており、AIアプリケーションの最適化や低コスト化が一層進む可能性が高まっている。 この状況を如実に示すベンチマークの1つがAIスタートアップGalileoの「Hallucination Index」の最新版だ。Galileoは22の主要な大規模言語モデルを対象に、不正確な情報を生成する傾向(ハルシネーション)を評価する包括的なベンチマークを発表した。その結果、わずか8カ月でオープンソースモデルとクローズドソースモデルの性能差が大幅に縮まっていることが明らかになったのだ。 Galileoによると、2023年10月の前回評価では、上位はすべてクローズドソースモデル、主にOpenAIのGPT-4モデルが独占していた。しかし今回の評価では、競合モデルやオープンソースモデルがその差を急速に縮めていることが示された。 今回の調査では、AnthropicのClaude 3.5 Sonnetが全タスクで最高のパフォーマンスを示し、昨年のランキングを独占していたGPT-4を上回った。Claude 3.5 Sonnetは、短文(5,000トークン以下)、中文(5000~2万5,000トークン)、長文(4万~10万トークン)のコンテキストウィンドウで優れたパフォーマンスを発揮。それぞれのタスクで0.97、1、1という平均スコアを記録した。 これが意味するところは、プロンプトに入力される文の長さに関わらず、Claude 3.5 Sonnetはハルシネーションを起こさずほぼ完璧にタスクをこなしたということ。1.0は完璧なスコアを意味する。同モデルは20万トークンのコンテキストウィンドウをサポートしており、テスト時よりも大規模なプロンプトにも対応できる可能性を秘めている。 一方オープンソースモデルの中では、アリババのQwen2-72B-Instructが短文と中文で高いスコアを記録。短文での平均スコアは、0.95とほぼ完璧に近く、クローズドソースモデルの上位であるClaude 3.5 Sonnetの0.97、GPT-4oの0.96に肉薄するパフォーマンスを示した。