3万円のChatGPT Pro VS 3000円のGPT-4oで20番勝負!
● (テスト1)小数点の理解 まずは小手調べから。10.11と10.9のどちらが大きいかを判断させて、小数点の理解度を見てみよう。そんな簡単な……と思うかもしれないが、実は、生成AIはこの手の問題でよく間違える。 案の定、ChatGPTとClaudeは小数点以下の11と9を比べて、10.11の方が大きいと判断。正解したのはo1 proのみ。さすがである。 ■テスト1の結果 ChatGPT 4o × Claude 3.5 Sonnet × ChatGPT o1 pro mode ○ ● (テスト2)単語内の文字数カウント 生成AIが苦手なものの一つが、単語内の文字カウント。例えば「bubble」という単語の中に「b」という文字がいくつ入っているか聞いてみると、正解は3つなのにChatGPTやClaudeは2つと間違えてしまう。 これは、生成AIがトークンという文字のかたまりで情報を処理しているためで、bubbleという単語の意味を理解し、文字単位で考えていないからだ。しかし、o1 proはサクッと正解した。 ■テスト2の結果 ChatGPT 4o × Claude 3.5 Sonnet × ChatGPT o1 pro mode ○
● (テスト3)方程式 次は、中学生が解けるレベルの方程式にチャレンジ。「遊園地の入園料が、大人2人と子供3人の家族が合計3万3700円、大人1人と子供2人の家族の合計は1万9500円でした。大人と子供の入園料はそれぞれいくらですか?」といった問題文をいくつか解かせたが、全て正解。少し複雑にして、異なる塩分濃度の食塩水を混ぜる問題も作ったが、問題なく解いてしまった。 もっと難しい問題を探していたら、昭和56年に沖縄県の高校入試で出された問題を発見したので試してみると、o1 proだけが正解した。ChatGPTとClaudeは男子が歩いた距離は正解できたが、A地からB地への距離を計算できなかった。問題の内容は以下の通りだ。 【プロンプト(問題)】男女のグループが、A地からB地に行くのに、女子はタクシーに乗り男子は歩いて、A地を同時に出発した。タクシーはB地に着くと女子を降ろし、すぐにひきかえして、歩いている男子を乗せてB地まで運んだ。このとき男子がB地に着いたのは女子より40分遅かった。A地からB地までの距離と、男子の歩いた距離を求めよ。ただし、タクシーの速さは毎時36km、男子の歩く速さは毎時4kmとし、タクシーの乗り降りにかかる時間は考えないものとする。 ■テスト3の結果 ChatGPT 4o × Claude 3.5 Sonnet × ChatGPT o1 pro mode ○