落胆招いたグーグルGemini、期待と実力のギャップが理由か? OpenAIとの差を埋める取り組み最先端
同じ土俵で比較するGemini Ultra、Gemini Pro、GPT-4
この点テクニカルレポートでは同等の比較がなされており、各モデルのパフォーマンス予想に適したものといえる。 CoT@32アプローチで、MMLUのベンチマークテストを行うと、Gemini Ultraは90.02%、Gemini Proは79.13%、GPT-4は87.29%となる。一方、5-shotでMMLUのベンチマークテストを行うと、Gemini Ultraは83.7%、Gemini Proは71.8%、GPT-4は86.4%という結果になる。 このことからいえるのは、まず5-shotアプローチで比較した場合、最も高いパフォーマンスを示すのは、依然としてGPT-4であるということ。またこのアプローチでは、Geminiのパフォーマンスが著しく下がってしまう傾向も判明している。Gemini Proに至っては71.8%となり、同じ5-shotアプローチによるGPT-3.5のベンチマークスコアである70%とほぼ同じ水準であることが示されているのだ。 つまり、多くのユーザーがGPT-4を超えるとの期待とともにBardを通じてGemini Proを利用してみたものの、タスクによっては、GPT-3.5と変わらない結果となり、それが大きな落胆につながったと考えられる。 それでもGemini Proは、英語から日本語への翻訳タスクでGPT-4に比べスムーズな日本語を生成する場合も多く、多言語タスクなどで利用が増える見込みがある。 Gemini Ultraは2024年に利用可能になる予定。テクニカルレポートが示す通りほとんどのタスクでGPT-4を超えることができるのであれば、OpenAIにとって脅威となるかもしれない。しかし、その頃にはOpenAIもGPT-4のアップグレード版や新モデルであるGPT-5をリリースしている可能性があり、AI分野の競争はさらに激化することが予想される。
文:細谷元(Livit)