ChatGPTが「ものを見て会話できる」ようになった。驚くべきレスの速さ
驚かされたのは、その速さ
認識能力を超えて、私がもっとも驚いたのは、これらの反応の速さでした。 ChatGPTに何かを識別してもらうと、それは実際の人に頼んだ時よりも速く答えることがあります。 時々、ボットが言葉を少し引き伸ばして(例:「I thiiiiiiiiink that's a...」)反応することがありますが、これはChatGPTが言いたいことを処理するためのトリックかもしれません。 また、最初の反応で自信がない様子を見かけることも。 たとえば、Magic Mouseにカメラを向けたとき、最初に答えたのは「コンピューターマウス」でした。しかし、ブランドを尋ねると、Appleだと特定するだけでなく、「洗練されたデザイン」と「タッチ感応型の表面」で知られるApple Magic Mouseだとも言っていました。 このように、最初は一般的な回答をしつつ、追加の質問によって詳細かつ正確に特定する流れは、人間の会話に近く、さらにリアルな対話体験を感じさせます。 とはいえ、これらの反応はほとんど瞬時に返ってくることが多く、最近のOpenAIのモデルの強力さを物語っています。
この機能の可能性と危険性
私はまだAIには懐疑的ですが、これはしばらくぶりに感心させられた進展で、正直どう感じるべきか迷っています。 困惑の一方で、この技術が良い方向に使われる可能性も見えます。 たとえば、視覚障がいのあるユーザーにとって、特にスマートグラスのような便利なデバイスを使って、どれだけ役に立つことができるか想像してみてください。 AIアシスタントに、自分がどの方向を向いているか、レストランのメニューを読んでほしい、または道路を渡るのが安全かどうかを尋ねることができるのです。 このような技術は、検索の方法を良い方向に変える可能性があり、スマートフォンのカメラを被写体に向けるだけで、世界について新しいことを簡単に学べるようにするでしょう。 一方で、私の考えはネガティブなほうに向かいます。特に、AIは依然としてハルシネーション(幻覚)を起こしやすいためです。この技術を多くの人が使うようになると、AIが犯すミスに必ず遭遇することになるでしょう。 そして、もし利用者がAIにタスクを頼っている場合(特に自分の安全に関わるようなこと)、ハルシネーションによるミスは危険です。 私自身は大きなエラーを経験することもなく、あったことといえばトラックパッドの混同だけでした。アンダーソン・クーパーは、AIが幾何学の問題で間違いを犯したことを発見しました(これも大きな問題ではありませんが)。 でも、これは技術が急速に進化するなかで、その内在的な欠陥が失敗のリスクを高めることを良い形で思い出させてくれます。 おそらく、それがすべてのライブカメラセッションで「安全に関わることにはこの機能を使用しないように」という警告が表示される理由です。 AIのハルシネーションや誤認識のリスクを避けるため、特に安全に関わる重要な判断をAIに頼らないようにという警告は非常に重要です。このようなリスクを軽減するためにも、ユーザーに慎重さを促す必要があります。 Source:techcrunch.com
ライフハッカー・ジャパン編集部