OpenAIのGPT-4かグーグルのGeminiか? 高い計算・数学能力を持つ生成AIが続々登場
生成AIモデルの計算・数学能力を測る方法
テキスト、コード、画像生成で著しい進化を見せる生成AIだが、計算・数学においても目覚ましい進化を遂げている。特にこの1~2年の進化は特筆に値するだろう。 生成AIの計算・数学能力(論理的能力)を測る上で、最も一般的に使われているベンチマークが「GSM8K」と呼ばれるデータセットを用いたものだ。OpenAIのGPTシリーズをはじめ、世の中にはさまざまな大規模言語モデルが存在するが、それらの基本的な計算能力を測る上で、ほぼ必ずGSM8Kベンチマークテストを実施するのが慣例となっている。 GSM8Kは、小学校レベルの算数文章問題8500問で構成されるデータセット。文章問題は、論理的な思考とステップ・バイ・ステップの回答プロセスを前提に設計されており、高い正答率を達成することは、大規模言語モデルの論理的プロセスや計算能力が高いことを意味する。 GSM8Kには、以下のような文章問題が含まれる。 文章問題例: David has $300. He spent half of it on a new bike, and then he spent a third of what was left on a pair of sneakers. How much money did he have left? 訳:デビッドは300ドル持っています。彼はこのうち半分を自転車を購入するために使いました。その後、残ったお金の3分の1でスニーカーを買いました。残りはいくらですか? 約2年前、このGSM8Kベンチマークテストにおいて最高水準を誇っていたのが、グーグルが開発していた「PaLM 540B」だ。現在グーグルが展開するAIチャットサービスBardだが、そのサービスに以前使われていたPaLM2の前身となるモデル。540B(Billion)とはパラメータ数を示しており、5400億のパラメータを持つ比較的重いモデルとなる。 2022年3月、グーグルはarXivに投稿した論文にて、PaLM 540BモデルがGSM8Kベンチマークテストで最高74.4%を記録した報告。当時存在するいくつかの大規模言語モデルの中で、GPT-3に次ぐ2番目のパフォーマンスを示した。同論文によると、GPT‐3(Code-davinci-002)のGSM8Kスコアは78%だったという。つまりこれらのモデルは、GSM8Kデータセットに含まれる8500問の文章問題のうち、74~78%の正答率で回答が可能だっということになる。 この2年間他のモデルの開発も進み、GSM8Kのベンチマークスコアは右肩上がりだ。