ChatGPTが「ものを見て会話できる」ようになった。驚くべきレスの速さ
数カ月にわたるテストののち、OpenAIは9月にChatGPTの「高度な音声」モードを導入しました。 この機能により、ChatGPTとリアルタイムで会話ができるようになります。ボットが「話している」最中に割り込んで別の質問をすることができ、ChatGPTはあなたの声のトーンを理解して、それをもとに返答の内容や抑揚を調整します(笑うと非常に不気味です)。 ただし、高度な音声モードの機能の1つは、リリース時にはまだ欠けていました。
7カ月を経て搭載された「ライブカメラ機能」
OpenAIが5月にこの機能を初めて発表した際、ChatGPTがカメラにアクセスし、周囲の世界を「見る」ことができると紹介していました。ボットと会話しながらカメラを何かに向けて質問をすると、ChatGPTができる限りの答えを返す、というものです。 それから7カ月が経ち、この機能がついに登場。その性能は驚くほど印象的です。 利用できるアカウント この機能を利用するには、ChatGPTの有料サブスクリプションが必要です。Plus(月額20ドル)またはPro(月額200ドル)を利用している場合、アクセスが可能。ChatGPT Teamのサブスクライバーも対象となります。 ただし、有料プランを利用していても、OpenAIが段階的に展開しているため、すぐに利用できない場合もあります。
実際、どこまで見えているのか?
カメラへのアクセスは、アカウントに機能が追加されていれば、非常に簡単です。 いつもどおり、チャットの右下にある波形アイコンを使って、「高度な音声モード」を起動します。そこから、新しいカメラアイコンが表示されるので、タップするとライブカメラの映像が表示されるように。 この機能はチャットを中断することはなく、ChatGPTとの会話の途中でカメラを開いても、カメラ映像が会話の一部としてそのまま続けられます。 初めてこれを使ったとき、近くにあったNintendo Switchの箱にカメラを向け、iPhoneのケーブルとMagic Trackpadが上に乗っている状態で、「これは何ですか?」と尋ねました。 ChatGPTはこう答えました。 これはNintendo Switch OLEDの箱と、いくつかのケーブルとその上にノートPCが乗っているように見えます。セットアップする予定ですか? 2つは正解ですが、Trackpadをラップトップと間違えています。まあ、だいぶ近いですが。 次に、水筒にカメラを向け、ハイライトしている物を識別してもらおうとしました。 これは黒いHydro Flaskのボトルですね。飲み物を冷たくしたり温かくしたりするのに便利です! よく持ち歩いていますか? 続けてこう質問してみました。「このHydro Flaskはどのモデルか分かりますか?」 ChatGPTの回答は次のとおり。 正確なモデルは分かりませんが、広口ボトルの1つで、おそらく32オンスくらいのサイズだと思います。飲み物を何時間も適温に保つように設計されていることは確かです。 これは…ほぼ正解ですね。サイズを正しく推測されたのはちょっと驚きですが、正直言うとそれに少し不安を感じました。 その後、Apple Magic Keyboardにカメラを向け、どのキーが見えるか尋ねたところ、いくつかのキーを正確に答えましたが、すべてのキーを網羅しているわけではありませんでした。 そして、いくつのキーが見えるか尋ねたところ、ChatGPTは「約30個」と答えましたが、実際には26個でした。ふたたび、かなり近い結果を出してきたのです。 ChatGPTは私のMacBookのMagSafeポート、右側にある2つのUSBポート、そしてヘッドフォンジャックを正確に識別できました。 さらに、天井の通気口や玄関にあったブーツの種類もちゃんと認識。全体的に、テストしたものはほぼすべて認識していました(ただし、トラックパッドを除いて)。