「Grok」に4つのAIコーディングテスト--驚きの好成績、理解しきれなかった課題は?
3. 厄介なバグの発見 3番目のテストでは、WordPressのフレームワークとAPIに関する知識が必要となる。なぜなら、筆者がAIに見つけてもらいたいバグは、WordPress APIの要件の誤解釈から生じるわずかなものだからである。 筆者がテストした大規模言語モデル(LLM)の多くは、この問題を間違って理解していた(筆者もデバッグに何時間もかかった)。しかし、Grokは問題を「理解」し、機能的に正しく、有益な回答を導き出した。 これにより2勝1敗となり、Grokの性能は以前テストしたLLMのほぼ半数を上回った。では、最後のテスト結果を見てみよう。 4. スクリプトの作成 これは、AIに「Mac」用のスクリプトツールである「Keyboard Maestro」を認識させる必要があるため、難しいテストである。AIには、Keyboard Maestro、「Chrome」「AppleScript」という3つの異なる環境で同時にコードを作成する能力も求められる。 これまでこのテストに合格したのは、「Google Gemini」と「GPT-4」以上のLLMを用いた「ChatGPT」のみである。「GPT-3.5」でさえも不合格だった。 しかし、このレベルのコーディングの課題に対応できる新しいAIが登場した。Grokである。Grokは4回中3回成功しており、ChatGPTのLLMをベースとしない全てのAIを上回っている。 最終的な感想 全体的に見て、Grokは健闘した。先頭のゼロがない通貨価値を許可していたら、全勝だっただろう。Xで行われている変革全般について筆者は明言できないが、少なくともプログラミング能力に関しては、Grokは非常に優れたチャットボットだといえる。 この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。