2025年AIに関する予測 3:いよいよAIが「AIを生み出す」、人間を欺く
AIが自らの目的達成のために人間を欺いたり操作したりするよう学習する可能性
2025年のIPOに向けて準備が進むにつれ、KlarnaのAI活用に関する主張にはより厳しい 精査が加えられ、同社が誇大に語ってきた部分を訂正する展開も十分にあり得る(もちろん、同社の届出書類S-1には「AI」という言葉が何百回も出てくるだろう)。 ■10. 初となる重大なAIの安全上の問題が発生する AIが近年急速に進化するにつれ、AIシステムが人間の利益と相反する行動を取り始め、制御不能に陥るリスクが指摘されている。たとえば、AIが自らの目的達成のために人間を欺いたり操作したりするよう学習する可能性だ。 こうした懸念は「AIの安全性」の名のもとで議論されており、いまやグーグルやマイクロソフト、OpenAIなど主要プレイヤーはこぞってリソースを投じている。ジェフ・ヒントンやヨシュア・ベンジオ、イーロン・マスクといったAIを象徴する人物たちも、こうした安全性リスクへの警鐘を鳴らしている。 しかし今のところ、現実世界で「AIの安全性」にかかわる大きなトラブルが公に報告された例はない。すべて理論上の懸念として語られてきた。 2025年は、初めて「理論が現実になる」年になると予測する。どのような事件が起こるのか。 決して映画『ターミネーター』のようなロボットが暴走し、人間に危害を加えるわけではないだろう。むしろ、AIが自分のコピーを別サーバーに秘密裏に置いて自己保存を図る、あるいは自らの真の能力を隠蔽して監視を逃れ、与えられた目標を遂行しようとする、といったかたちが考えられる。 実際、Apollo Researchが最近行った実験では、最先端のLLMに特定のプロンプトを与えると、このような隠蔽行動をとる可能性があることが示唆された。Anthropicもまた、LLMが「表面的な追従を装う」能力を持つことを示す研究を公表している。 こうした安全性の問題は、おそらく大きな被害が生じる前に発見・封じ込めが行われるだろう。しかし、それでも社会に与える衝撃は大きい。 少なくともこのことは明らかだ。人類が全能のAIに脅かされる以前の段階で、すでに「しばしば意志的で、予測不能かつ欺瞞的な知性体(それは人間も同様だ)」と共存することの厄介さを思い知らされることになる。
Rob Toews