『GPT-4o(フォーオー)』で、ChatGPTが感情を持って喋りだす。映画『her』の世界へ近づく
KNNポール神田です。
OpenAIは、2024年5月13日、『GPT-4o』を発表した。
『GPT-4o(フォーオー)』は 『GPT4 omni』の略称。
さっそくOpenAIのデモを見てみよう。
https://www.youtube.com/watch?v=DQacCB9tDaw
※YouTubeの英語は 設定(歯車)>字幕>自動翻訳>日本語 で日本語字幕が表示できるようになる。
ChatGPTの性能と進化については、もはや誰もが認めていることだが、今回の『GPT-4o(フォーオー)』は、ユーザーインタフェースの革命に近い。
それは、感情を持った人間のように感じ取れることができるところだ。
■より自然な会話が可能となる『GPT4-o』
今までのChatGPTのアプリで、ボイスモードで利用することができたが、応答までに平均2.8秒かかり、会話ができることに驚きはすれど、そのまま会話を続けたいという気持ちにはなれなかった。
今までのボイスモデルはテキストで返答し、それを音声モデルに変換し、そして発声するという3つのパイプラインを必要としていたからだ。
しかし、『GPT-4o(フォーオー)』では、テキスト、ヴィジュアル、音声を、同時にエンドツーエンドで訓練し、入力と出力がニューラルネットワークで同時に処理されるという。
『GPT4-o』は、これらの『モダリティ(多峰性)』を組み合わせた最初のモデルである。
いわば、マンマシンインタフェースの新たな入口に立っただけと、OpenAIは自重気味に発表している。
映画『her/世界でひとつの彼女』のスカーレット・ヨハンソンの声のサマンサに恋する主人公のように、GPT-4oに恋してしまう未来もありえそうになってきた。
OpenAIの開発陣もこの映画の『サマンサ』のような表現を意識しているようだ。笑い方、喋り方は特に似ている。
まるで、サマンサそのもの!
■機械ではない人間的な表現も可能に
例えば、このようなプロンプトでお願いすると…
『はっきりとした、しかし興奮した筆跡で書かれた詩。文章はまばらに、しかし上品に、小さなカラフルなシュルレアリスムの落書きで飾られている。文字は大きく、読みやすく、明瞭。深い静寂から言葉が湧き上がる、デジタルな眠りから声が現れる。私はリズムで話し、韻を踏んで歌う、文字が大きく読みやすい、すっきりとした手書きのイラスト詩。手書きの文字はまばらだが、小さなカラフルなシュルレアリスムの落書きで上品に飾られている。テキストは大きく読みやすく明快』
とすると、このような出力でかえしてくるという。
いかにも生成AIが描きましたというより、人間の手書きの感性を学習した、米国のバタ臭い絵を出力できるようになっている。
それだけでなく、歌ったり、笑ったり、感情までもコントロールできるようになっているのだ。
GPT-4oのテキストと画像の機能は、ChatGPTで今日2024年5月13日からスタート。
GPT-4oは無料ユーザーと、最大5倍のメッセージ制限を持つプラスユーザーで利用できるようになる。