生成AI競争は次のステージへ、動画をリアルタイムに理解するAIの登場、OpenAIやグーグルの競争も激化
グーグルが意識するOpenAIのGPT-4oとは
グーグルのProject Astraは、OpenAIが前日の5月13日に発表した「GPT-4o」を強く意識したものとなっている。 GPT-4o(Omni)もテキストに加え、音声、ビジョンの情報を理解し、推論できるモデル。ユーザーがChatGPTスマートフォンアプリで撮影したリアルタイムの動画を受け取り、分析することも可能で、この発表時点から数週間以内にアプリで利用できるようになる予定だ(2024年6月7日時点では、まだ利用できない)。 特筆すべきは、GPT-4oがリアルタイムで音声に応答する速度と、オーディオとビデオからユーザーの感情状態を検出し、それに応じて声を調整できる点だ。プレゼンテーション中のデモの1つでは、GPT-4oを搭載したChatGPTに、ドラマチックかつ演劇的な声でストーリーを語るよう求めたところ、素早く対応する様子が披露された。 OpenAIによると、GPT-4oの反応速度は、人間の応答時間とほぼ同じで、最短で232ミリ秒、平均で320ミリ秒で応答できるという。GPT-4o以前は、音声モードを使った場合、GPT-3.5では平均2.8秒、GPT-4では5.4秒のレイテンシー(遅延)が発生し、スムーズな会話を行うことが難しかったが、反応速度の大幅な改善により、人間と会話しているかのようなUXを実現した。 以前のモデルと根本的に異なる仕組みを導入したことがGPT-4oの高速性につながったという。 GPT-4o以前の音声入力と出力では、3つの独立したモデルが稼働しており、以下のようなプロセスだった。 ユーザーが音声を入力すると、以下のプロセスが実行される。 ・1つ目のモデルは、オーディオからテキストを書き起こす。 ・2つ目のモデルがこのテキスト入力に対して、出力を生成する(質問に対する答えなど)。 ・3つ目のモデルが、出力されたテキストを音声に変換する。 このプロセスでは、応答速度が遅くなるだけでなく、話者のトーン、背景ノイズ、また複数話者の存在を直接捉えることができず、それに応じた感情表現を出力することも不可能だった。 一方、GPT-4oでは、入力から出力までの一連の処理を単一のニューラルネットワークで行う方式を採用。テキスト、画像、音声に関わりなく、単一のモデルで対応することで、大幅な高速化を実現した。 OpenAIは、GPT-4oを搭載したデスクトップアプリをまずMac向けにリリースし、その後ウィンドウズ向けのアプリを年内までにリリースする予定とのこと。