落胆招いたグーグルGemini、期待と実力のギャップが理由か? OpenAIとの差を埋める取り組み最先端
公開された9つのベンチマークテストのうち、Gemini Ultraは8つのテストでGPT-4を超えるパフォーマンスを示した。唯一、コモンセンス推論能力を評価するHellaSwagテストで、GPT-4や他モデルよりも低い数値を記録。HellaSwagベンチマークテストにおけるGPT-4のスコアは95.3%。これにInflection-2が89%、そしてGemini Ultraが87.8%、PaLM2が86.8%、GPT-3.5が85.5%などと続いた。 HellaSwagは、与えられたコンテキスト(文章や状況の記述)に基づいて、最も論理的または自然な続きを予測するタスクや日常的な状況や一般的な知識に関する問題などを選択式で回答させるテスト。GPT-4はコンテクスト理解能力が高いといわれているが、それがこの数値にもあらわれた格好となる。
海外メディア報道における厳しい評価、その理由とは?
これらの数字を根拠に「GPT-4を超える」との謳い文句で大々的に発表されたGeminiだが、メディアの評価はグーグルが予想したものにはならなかった。 主要テックメディアの1つTechcrunchは2023年12月8日「Early impressions of Google’s Gemini aren’t great」と題した記事で、実際にGeminiを利用したユーザーの声を交え、現時点のGeminiは「期待はずれ」であると論じているのだ。他のメディアも同じような論調でGeminiを評価している。 なぜGeminiに対してこれほど厳しい評価が下されたのか。 理由の1つとして、期待とのギャップが増大してしまったことが挙げられるだろう。 グーグルはGeminiの発表ページにおいて、上記のテクニカルレポートを参照する型で、GPT-4に対して、Gemini Ultraがいかに優れているのかを強調する文言を多用している。 しかし現在ユーザーが同社のチャットサービスBardを通じて利用できるのは、Gemini Ultraではなく、その下位互換バージョンとなるGemini Proのみ。このGemini Proのテクニカルレポート上でのベンチマークテスト結果は、GPT-4に比べ大きく劣っており、GPT-4以上のパフォーマンスを期待していたユーザーを裏切ることになり、それが多くの酷評につながったものと考えられる。 Gemini Proのベンチマークテストの結果は概して、OpenAIのGPT-3.5を上回るものの、GPT-4やGemini Ultraに比べると大きく劣っている。たとえば、上記でも触れたがMMLUベンチマークテストでは、Gemini Ultraが90%、GPT-4が87.29%と高いスコアを達成している一方、Gemini Proのスコアは79.1%と80%に満たない。 また一部のユーザーが指摘するように、発表ページにおける比較方法が平等なものにはなっておらず、これにより期待ギャップが膨らんだ可能性もある。たとえば、Geminiの発表ページでは、MMLUでのベンチマークテスト結果に関して、Gemini Ultraが90%、GPT-4が86.4%であったと示されている。しかし、Gemini Ultraの数値は「CoT@32」、GPT-4の数値は「5-shot」という方法によって得られたものであることが小さく記載されているのだ。 「CoT@32」とは、AIモデルが32のサンプル(トークン)を用いて「思考の連鎖(Chain of Thought)」を生成し、その中から最も論理的かつ正確と思われる回答を選択するというアプローチ。一方「5-shot」とは、AIモデルに5つの事例を与え、タスクを学習させてから、任意のプロンプトに対する回答を生成させるアプローチとなる。 この発表ページの数値に関しては、異なるアプローチによる比較であること、またGPT-4に関しては低い方の数値が記載されるなど、ミスリードするものであると指摘されている。