ChatGPTの進化した「音声モード」同士で会話させてみたらどうなるの?
実際にどのように機能するのか?
新しい高度音声モードを短時間使用した限りでは、以前の音声モードに比べてあまり進展を感じませんでした。 新しい声は、過去の声よりも若干「自然」に感じるかもしれませんが、会話がより生き生きとしたものになったとは思いません。 デジタルパートナーの音声を途中で遮ることができる機能は、より自然な会話ができるというイリュージョンを多少売りこむことになりますが、その反応は敏感です。 たとえばChatGPTが話しているときにiPhoneを手に取ると、瞬時に会話が止まりました。 OpenAIは、ユーザーが話を遮りたいときと、ランダムな外部音が発生したときを理解する能力を向上させる必要があると思います。 もちろん、OpenAIは不要な中断を避けるためにヘッドフォンを使用することを推奨しており、iPhoneを使用している場合は音声の分離モードを有効にすることをすすめています。 今回はヘッドフォンなしで音声分離モードを使用していたので、ヘッドフォンを使えばまた状況は違うかもしれません。 OpenAIがChatGPTのユーモラスで遊び心のある一面を抑えたように見えますが、頼めばボットを笑わせることはまだできます。 その笑い声は、人工的な声にしては印象的だと思いますが、どこか不自然で、別の録音から「笑い」を引き出しているように感じます。 しかし泣いたり叫んだりといった、ほかの似たような音を出すよう頼んでも、拒否されます。 曲を聴かせてその曲を特定するように音声モードに頼んでみましたが、それはできないと言われました。 音声ボットは特に歌詞だけを共有するように求めてきたので、指示に従ったところ、歌詞の雰囲気に基づいて曲を提案してきました。 しかし、その曲は実際の歌詞そのものに基づいてはいませんでした。 そのため、ボットの推測は大きく外れてしまいましたが、まだこの種のタスクに対応できるようにはつくられていないようなので、今回は大目に見ましょう。