Yahoo!ニュース

『GPT-4o(フォーオー)』で、ChatGPTが感情を持って喋りだす。映画『her』の世界へ近づく

神田敏晶ITジャーナリスト・ソーシャルメディアコンサルタント

KNNポール神田です。

OpenAIは、2024年5月13日、『GPT-4o』を発表した。
『GPT-4o(フォーオー)』は 『GPT4 omni』の略称。

さっそくOpenAIのデモを見てみよう。

https://www.youtube.com/watch?v=DQacCB9tDaw

※YouTubeの英語は 設定(歯車)>字幕>自動翻訳>日本語 で日本語字幕が表示できるようになる。

ChatGPTの性能と進化については、もはや誰もが認めていることだが、今回の『GPT-4o(フォーオー)』は、ユーザーインタフェースの革命に近い。
それは、感情を持った人間のように感じ取れることができるところだ。

GPT-4o("o "は "omni "の意)は、より自然な人間とコンピュータの対話への一歩であり、テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像のあらゆる組み合わせを出力として生成します。

音声入力に対して最短232ミリ秒、平均320ミリ秒で応答することができ、これは会話における人間の応答時間(新しいウィンドウで開きます)に似ています。

GPT-4oは、英語とコードのテキストでGPT-4ターボの性能に匹敵し、非英語言語のテキストでは大幅に改善され、APIでははるかに高速で50%安価です。GPT-4oは、既存のモデルと比較して、視覚と音声の理解において特に優れています

https://openai.com/index/hello-gpt-4o/

■より自然な会話が可能となる『GPT4-o』

今までのChatGPTのアプリで、ボイスモードで利用することができたが、応答までに平均2.8秒かかり、会話ができることに驚きはすれど、そのまま会話を続けたいという気持ちにはなれなかった。
今までのボイスモデルはテキストで返答し、それを音声モデルに変換し、そして発声するという3つのパイプラインを必要としていたからだ。

しかし、『GPT-4o(フォーオー)』では、テキスト、ヴィジュアル、音声を、同時にエンドツーエンドで訓練し、入力と出力がニューラルネットワークで同時に処理されるという。

『GPT4-o』は、これらの『モダリティ(多峰性)』を組み合わせた最初のモデルである。
いわば、マンマシンインタフェースの新たな入口に立っただけと、OpenAIは自重気味に発表している。

映画『her/世界でひとつの彼女』のスカーレット・ヨハンソンの声のサマンサに恋する主人公のように、GPT-4oに恋してしまう未来もありえそうになってきた。

OpenAIの開発陣もこの映画の『サマンサ』のような表現を意識しているようだ。笑い方、喋り方は特に似ている。

まるで、サマンサそのもの!


■機械ではない人間的な表現も可能に

例えば、このようなプロンプトでお願いすると…

『はっきりとした、しかし興奮した筆跡で書かれた詩。文章はまばらに、しかし上品に、小さなカラフルなシュルレアリスムの落書きで飾られている。文字は大きく、読みやすく、明瞭。深い静寂から言葉が湧き上がる、デジタルな眠りから声が現れる。私はリズムで話し、韻を踏んで歌う、文字が大きく読みやすい、すっきりとした手書きのイラスト詩。手書きの文字はまばらだが、小さなカラフルなシュルレアリスムの落書きで上品に飾られている。テキストは大きく読みやすく明快』

とすると、このような出力でかえしてくるという。

出典:OpenAI
出典:OpenAI

いかにも生成AIが描きましたというより、人間の手書きの感性を学習した、米国のバタ臭い絵を出力できるようになっている。

それだけでなく、歌ったり、笑ったり、感情までもコントロールできるようになっているのだ。

GPT-4oのテキストと画像の機能は、ChatGPTで今日2024年5月13日からスタート。
GPT-4oは無料ユーザーと、最大5倍のメッセージ制限を持つプラスユーザーで利用できるようになる。

今後数週間でChatGPT Plusのアルファ版でGPT-4oを使ったボイスモードの新バージョンをロールアウトする予定。
また、開発者はテキストとビジョンモデルとしてAPIでGPT-4oにアクセスできるようになり、GPT-4oはGPT-4 Turboに比べて2倍速く、価格は半分で、レート制限は5倍高くなっている。『GPT-4o』の新しいオーディオとビデオ機能のサポートは、今後数週間のうちにAPIでパートナーに公開する予定だ。
https://openai.com/index/hello-gpt-4o/

ITジャーナリスト・ソーシャルメディアコンサルタント

1961年神戸市生まれ。ワインのマーケティング業を経て、コンピュータ雑誌の出版とDTP普及に携わる。1995年よりビデオストリーミングによる個人放送「KandaNewsNetwork」を運営開始。世界全体を取材対象に駆け回る。ITに関わるSNS、経済、ファイナンスなども取材対象。早稲田大学大学院、関西大学総合情報学部、サイバー大学で非常勤講師を歴任。著書に『Web2.0でビジネスが変わる』『YouTube革命』『Twiter革命』『Web3.0型社会』等。2020年よりクアラルンプールから沖縄県やんばるへ移住。メディア出演、コンサル、取材、執筆、書評の依頼 などは0980-59-5058まで

神田敏晶の最近の記事