最新ベンチマークで判明、Claude3.5 Sonnetがトップも、オープンソースモデルが怒涛の追い上げ 大きく変化するAIモデルのランドスケープ
注目のオープンソースモデル、Gemma2 27B
オープンソースモデルといえば、早々にLlamaモデルの投入でリーダー的な地位を確立したメタが注目されがちだが、グーグルの取り組みも見逃せない。同社の主力オープンソースモデルの1つGemmaが飛躍的な性能向上を見せているからだ。 上記でも登場したGemma2 27Bは、270億パラメータという比較的小さな規模ながら、700億パラメータなど数倍大きなモデルに近い性能を発揮しており、特に効率性の観点から大きな関心を集めている。 たとえば、27Bモデルは、グーグルクラウドのTPUホスト1台またはNVIDIA A100 80GB Tensor Core GPU 1台で運用できるように最適化されており、分散コンピューティングインフラを必要としないシンプルさで、デプロイメントコストを大幅に削減できるのだ。 AIエンジニアであるラース・ウィーク氏の分析によると、Gemma2が特に高い能力を発揮するのが多言語理解能力であるという。英語を含む18言語での評価では、Gemma2は他のオープンソースモデルを大きく上回る性能を示した。特に、スワヒリ語、ヒンディー語、フィンランド語など、通常LLMが苦手とする言語でも高い精度を維持できたことが報告された。 具体的な性能比較では、8ビット量子化されたGemma2 9B(90億パラメータ)モデルが、メタのLlama3 8B、マイクロソフトのPhi3 14B、アリババのQwen2 7Bなどの同規模の競合オープンソースモデルを全言語で上回る結果となった。さらに、フルプレシジョンで推論を行うGemma2 27Bモデルは、さらに優れた性能を全言語で示した。 クローズドソースモデルとの比較でも、Gemma2は健闘している。もちろん、Claude 3.5 Sonnet、Gemini 1.5 Pro、GPT-4oといった上位のクローズドソースモデルには及ばないものの、GPT-3.5-turbo、Gemini 1.0 ProやGemini 1.5 Flash、Claude-3-haikuといった低コストのクローズドソースモデルと比較して、Gemma2は互角以上の性能を発揮したのだ。特に、Gemma2 27Bモデルが、GPT-3.5-turboやGemini 1.0 Proを上回る総合性能を記録した点は特筆に値する。 今後は、これらの有力オープンソースモデルに、イーロン・マスク氏のAI企業xAIが開発するGrokモデルが加わる見込みで、ベンチマーク順位の入れ替わりは一層激しくなる見込みだ。
文:細谷元(Livit)