「言葉に込められた感情」もアウトプット。Chat GPT-4oの出現で、AI環境はどう変化する?
『NexTech Week2024【春】』のセミナー企画「Chat GPTが大幅アップデート! GPT-4oの最新情報を徹底解説」が5月23日に東京ビッグサイト西展示棟 特別講演会場で開催された。 【画像】会場の模様 同セミナーには、石川陽太(ChatGPT研究所 代表)が登壇。モデレーターの小澤健祐(AI専門メディア「AINOW」 編集長、Cinematorico Founder COO)と共に、5月に公開されたChat GPTの新バージョン「GPT-4o(omni)」についてトークを繰り広げた。 今回の記事では、当日の様子をレポートする。
GPT-4oで起こった変化とは?
立ち見も出るほどの注目度となった会場。石川はGPT-4oについて「まったく新しく学習されたOpenAIのマルチモーダルAIモデル」と話す。 これまでのChat GPTでは画像や音声、テキストを別々のモデルを使用し学習していたが、GPT-4oではすべてを統合して学習しており、飛躍的な性能向上につながったという。 例えば音声生成においては、認識した音声をテキストに変え、また音声に戻す形でアウトプットしていたが、GPT-4oでは音声で認識しそのまま音声でアウトプットするかたちに変化。テキストに変換する場合には欠落してしまっていた「言葉に込められた感情」などもアウトプットできるようになった。 音声理解能力も向上。「わかりにくい会議の内容を話者の名前付きで要約する」といった命令にも対応できるようになるという。雑音の多い環境でも使用可能なため、議事録生成ツールがいらなくなる可能性もあると小澤は指摘する。 石川はそのほかの特徴として「高性能で低価格」「GPT-4の2倍となったテキストの応答速度」「高度な画像生成能力」などを挙げたほか、小澤は数学性能の向上も特筆すべきポイントだと解説。これまでのChat GPTは言語処理能力に長けているものの数学が苦手分野だったが、GPT-4oでは飛躍的に数学能力が向上したという。