新しい「ChatGPT」はココがすごい 解説「GPT-4o」
OpenAIは5月13日、最新大規模言語モデル(LLM)「GPT-4o(オー)」を公開した。そのすごさを解説する 【もっと写真を見る】
OpenAIは5月13日(現地時間)、「Spring Update」と題したをオンラインプレゼンテーションを配信。新しい大規模言語モデル(LLM)「GPT-4o(オー)」お披露目のほか、mac OS用デスクトップアプリや各種無料化施策なども発表した。 テキスト理解力は過去最高 GPT-4oは、これまでのフラッグシップモデル「GPT-4 Turbo」と同等の性能を持ちながら、より高速化され、テキスト、音声、画像の理解力も大幅に向上したという触れ込みの最新LLMだ。 ちなみにGPT-4oの「o」は、「すべての」「全てを含む」という意味を持つラテン語の接頭辞「omni(オムニ)」から来ている。 以前から得意な英語とプログラムコードに関してはGPT-4 Turboと同等の性能を発揮し、英語以外の言語のテキストでは大幅な改善がみられるという。 ベンチマーク(OpenAIが提供するsimple-evals)の結果を見てみると、MMLU(大規模マルチタスク言語理解)、GPQA(一般的な質問応答)、MATH(高度な数学)、Human Eval(プログラミング)の各分野でGPT-4 Turboや他社LLMを押さえて最高値を出している。MGSM(多層的意味一致)とDROP(段落にわたる離散的推論)では負けているものもあるが、いずれにせよ現在のところ最高峰レベルと言ってしまってもいいだろう。 だが、真にすごいのは、音声、画像を含めたマルチモーダルな理解力だ。 段違いの画像認識能力 「GPT-4oは画像の理解において既存のどのモデルよりも優れている」とOpenAIは主張しており、例えば「他の言語で書かれたメニューの写真を撮ってGPT-4oに翻訳を依頼し、その料理の歴史や重要性について学んだり、おすすめを聞いたりすることができる」といった例をあげている。 ガジェットを撮影して聞いてみたところ、メーカー、モデル名と共に簡単な機能紹介まで表示されている。実在する有名人についてこれは誰かとたずねても、問題なく答えてくれた。 こちらはタイ語の「あいうえお」表だが、「"ก"は"กอไก่"(ゴーガイ)で”鶏”の絵が描かれています」と、仕組みやタイ語の読み方まで正確に理解していることがわかる。 こちらは画像認識のベンチマーク結果だ。すべての項目でGPT-4 Turboや他社のLLMを上回っている。 画像生成も大幅改良 不思議なことにデモンストレーションではまったくと言っていいほど触れられていなかったが、何気にすごいのが画像生成だ。 詳しくは「画像生成AIとしても超進化したChatGPT「GPT-4o」」という記事にまとめたので、そちらを参照してほしい。 音声会話機能の強化 加えて、デモンストレーション動画の中でもいちばんインパクトがあったのが音声会話機能だろう。 音声入力の応答速度は最短で232ミリ秒、平均で320ミリ秒。これは会話における人間の応答時間と同等だという。 この動画ではChatGPTに1から10までカウントしてもらっているのだが、「もっと早く」「ゆっくり」といったユーザーの指示にほぼリアルタイムで反応しているのに驚く。 この動画はカメラで犬を撮影しながら、その犬に向けてChatGPTが言葉をかけているのだが、子どもをあやすような口調で語りかけているのがわかる。 このように、反応速度の向上だけではなく、どうやら話し方のバリエーションや感情の表現まで可能になっているようなのだ。 ChatGPTにはこれまでも音声会話機能は実装されていたが、GPT-3.5では平均2.8秒、GPT-4では5.4秒の遅延があった。理由としては、「音声認識(Whisper-v3)」「LLM(GPT-4など)」「音声合成(TTS)」の3つの独立したモデルのパイプラインになっていたからだ。 GPT-4oは、テキスト、画像、音声すべてを同じニューラルネットワークで処理しているため、音声のトーン、複数の話者、背景ノイズといった情報も考慮し、笑い声、歌、感情表現を出力できるようになったという。 こちらは、言語ごとの音声認識性能をこれまで使われていた同社の「Whisper-v3」と比較したものだ。英語はもちろんすべての言語でGPT-4oの方が優れた成績を見せていることがわかる。 将来的には、より自然なリアルタイムの音声会話や、リアルタイムのビデオを通じてChatGPTと対話する機能が追加される予定だ。 誰もがGPT-4の実力を試せるように 高性能化よりも高速化に舵を切ったことで計算資源に多少余裕ができたのだろうか、GPT-4oは使用制限付きだが無料ユーザーにも公開されることになっている。 それにともないWeb検索、データの分析とチャートの作成、写真やファイルのアップロード、GPTsおよびGPTストアの利用、メモリー機能といった従来月額20米ドル(およそ3130円)の「ChatGPT Plus」に加入しなくては利用できなかった機能を無料ユーザーも使えるようになる。 つまり、これまで「GPT-3.5」しか触ったことのなかった大部分のユーザーが初めてGPT-4の実力を実感することができるようになるのだ。これは思っているよりも大きな事件かもしれない。 なお、GPT-4oはAPI経由でも利用できる。価格は100万トークンあたり入力が5米ドル(およそ780円)、出力が15米ドル(およそ1560円)とGPT-4 Turbo(入力10米ドル、出力30米ドル)の半額になっている。これも高速化の恩恵だろう。 macOS用デスクトップアプリ macOS用のデスクトップアプリもリリースされる。WindowsのCopilotのようにキーボードショートカット(Option + Space)ですぐにChatGPTを呼び出して質問できる。スクリーンショットを撮影して直接アプリ内で議論することもできるようだ。 また、デスクトップアプリの右下にあるヘッドフォンアイコンをクリックすることで音声会話を始めることも可能だ。 新しいアイデアのブレインストーミング、面接の準備、特定のトピックについてのディスカッションなど、さまざまな用途に活用できるとしている。 例のごとく段階的なローンチ GPT-4oは、まずChatGPT Plusおよびチームユーザー向けに展開を開始しており、企業ユーザー向けの提供も近日中に予定している。 また、使用制限付きでChatGPT Freeユーザー向けにも展開を開始しているようだが、現時点で筆者の環境にはまだ来ていない。なお、Plusユーザーは無料ユーザーの最大5倍のメッセージ制限があり、チームおよび企業ユーザーはさらに高い制限が適用されるという。 macOS用のデスクトップアプリもPlusユーザー向けに展開を開始しているようだが、こちらもまだ未確認だ。また、今年後半にはWindows版のリリースも予定しているという。 一部報道ではアップルとOpenAIの契約が最終調整に向かっており、iOS 18にChatGPTを搭載するとみられている。その際にはGPT-4oの機能をフル活用した「Siri」の代替となるバーチャルアシスタントになると見られている。他のOSもその方向に進むのではないだろうか。 文● 田口和裕