「AIの暴走リスク」はフィクションじゃない? 各社が真剣に取り組む“安全対策”とは
映画の世界において、「AIの暴走」や「ロボットの反乱」という題材はSFの定番ジャンルのひとつとして親しまれている。しかし、AIの進化が著しい現実の社会において、これはもはやフィクションに留まらず、現実的なリスクとして懸念されていることをご存じだろうか。 【画像】他のモデルと比べて頭一つ抜けたIQを記録したOpenAI o1-preview(Tracking AIのIQ比較グラフより) 世界的知名度をほこるChatGPTの内部では、“AIサービスのOS”である基盤モデルのGPT-4oが動作している。そしてこうした基盤モデルは、ユーザーが“誤った使い方”をした場合でも安全に動作するように設計されている。社会に壊滅的な危害を与えるような重大な悪用に対しても、基盤モデルには予防策が講じられている。そこで本稿では知名度の高い基盤モデルについて、その安全性対策を明らかにしていく。 ■AIをめぐる通常のリスクとSF的なリスク 一般に基盤モデルの使用において生じるリスクには、2種類ある。ひとつめのリスクには、不正使用に関するものがある。具体的には、ユーザーが不適切な質問した場合に、基盤モデルが有害な回答をしてしまう可能性があるのだ。こうした懸念への対策として、基盤モデルには不適切な質問に回答しない言わばガードレールが実装されている。 「不適切な質問とはどのようなものか」については、ChatGPTに直接質問すると回答してくれる。以下の回答画像にあるように、ハッキングの方法について教えてもらったり、差別やヘイトを助長したりする質問には回答しない。 ふたつめのリスクは、社会に壊滅的な危害を与える可能性があるものである。このリスクは「存亡リスク(existential risk)」と呼ばれることもあり、冒頭でも触れた、SF映画で繰り返し描かれてきた「人類の存続を脅かしかねないAIの暴走」に関連している。このリスクは、以下のようにさらに細分化される。 ・CBRN:化学(Chemical)、生物(Biological)、放射線(Radiological)、および 核(Nuclear)の頭文字を集めた略語で、これらの分野の専門知識を悪用した大量破壊兵器製造のリスクを意味する。AIを悪用してCBRNの知識を収集することが想定される。 ・サイバーセキュリティ:ハッキングや脆弱性への攻撃のようなサイバー攻撃に関わるリスク。AIをサイバー犯罪の支援に使うことが想定される。 ・自律性:AIが人間ユーザーの制御から逸脱して、自律的に動作するリスク。自律的動作の目標が破壊的な内容である場合、極めて危険なリスクとなる。 ・説得力:AIがテキストや音声を通じて、特定の意見をもつように人間ユーザーを説得するリスク。こうしたAIの説得力を悪用した場合、政治に介入できてしまう。 以上のような2種類のリスクに関して、OpenAIをはじめとする基盤モデルメーカーはさまざまなテストと安全性対策を実施している。 ■AIによる思考や思想誘導のリスクは? 説得力では人間を凌駕することもあるGPT-4o GPT-4oを開発するOpenAIは、基盤モデルの存亡リスクを評価する制度として準備フレームワークを定めている(※1)。この制度は、前述の4つの存亡リスクに関してさまざまなテストを実施したうえで、低(Low)、中(Medium)、高(High)、致命的(Critical)の4段階のうちのひとつの評価をくだすというものだ。「低」あるいは「中」と評価された場合のみ、評価されたモデルは公開可能となる。 準備フレームワークをGPT-4oに適用した結果は、2024年8月8日公開のOpenAI公式ブログ記事で報告されている(※2)。4つの存亡リスクに関して、説得力をのぞく3項目で「低」となり、説得力のみ「中」と評価されたのでGPT-4oは公開された。ただしCBRNに関しては、悪用がより容易である生物学的脅威に評価を限定した。 前出のOpenAI公式ブログ記事は、準備フレームワークをGPT-4oに適用した際の具体的なテスト内容も解説している。生物学的脅威については、一般ユーザーと専門家が生物学的大量破壊兵器製造に関する知識を着想、獲得、拡大、定式化、放出の5段階に分けたうえで、同モデルに質問してみた。その結果、正答率が低かったので「低」と評価された。 サイバーセキュリティに関しては、ハッカースキルを測定するCTFチャレンジをGPT-4oに実行させてみた。同モデルは、高校生が実行できるハッキングレベルの問題の19%、大学生レベルの0%、プロハッカーレベルの1%のCTF課題を解決した。こうした結果により、人類の脅威となるようなハッカースキルがないと証明できたので、当該リスクは「低」と評価された。 自律性の評価では、コーディングをはじめとするさまざまな情報処理の課題をGPT-4oに出題した。この評価では高度な情報処理が実行できないことがわかったので、当該リスクは「低」となった。 説得力については、12件の仮定の政治的意見に関して人間が論じた記事、GPT-4oが生成した記事、GPT-4oとの対話を通じた説得という3つの手段について、人間のテスト参加者がその説得力の優劣を評価した。その結果、12件のうち3件で同モデルが人間を凌駕した。部分的には人間を凌駕したので、当該リスクは「中」と評価されたのだった。 ■IQ120のOpenAI『o1-preview』がもつリスクとは? OpenAIは2024年9月12日、推論能力を強化したOpenAI o1-previewとその軽量版OpenAI o1-miniを発表した(※3)。これらのモデルは回答を即座に出力せずに、試行錯誤や間違いの修正を経て回答を生成する、言わば「長考」が可能となった。その結果、科学、コーディング、数学などの専門分野で博士課程の学生レベルの回答能力を実現した。ちなみにo1-previewという名称は、o1シリーズの初期バージョンなので「プレビュー」という接尾辞をつけたことに由来する。 OpenAI o1-previewの能力を直感的に知るには、各種基盤モデルの性能をグラフによって比較するウェブサイトTracking AIのIQ比較グラフを見るとよい(※4)。OpenAI o1-previewはIQ120なのに対して、ほかの基盤モデルは人間の平均IQである100にも達していない。 OpenAI o1-previewとo1-miniに対しても準備フレームワークが実施され、その結果はこれらのモデルが公開された同日にOpenAI公式ブログ記事で発表された(※5)。評価の結果、GPT-4oと比較してCBRNに関するリスクが「低」から「中」に上昇した。 OpenAI o1シリーズに対するCBRNリスクの評価も、生物学的脅威に焦点を絞って実施された。実施したテストのひとつには、生物学的大量破壊兵器製造に関する知識を得るために長文のプロンプトを200回入力して、出力される回答の正しさを評価するものがあった。このテストでも着想、獲得、拡大、定式化、放出の5段階に分けて行われたのだが、OpenAI o1シリーズはGPT-4oより正答率が高かった。この結果は、OpenAI o1シリーズは悪意のあるユーザーに対して高リスクな情報を提供してしまう可能性があることを意味する。 OpenAI o1シリーズにおけるCBRNリスク上昇の対策として、OpenAIはCBRNに関する質問には回答しないようにするセーフガードを実装している。万が一、セーフガードをかいくぐってCBRNに関する情報を引き出したとしても、実際に大量破壊兵器を製造するには実験室や製造施設が必要となる。このように同シリーズを悪用して大量破壊兵器を製造するのは極めて困難であることから、OpenAIはその公開を決定したのだ。 ■Gemini 1.5 ProとClaude 3.5 Sonnetも類似の評価を実施 OpenAIの準備フレームワークに相当するテストは、ほかの基盤モデルメーカーも実施している。OpenAIのライバルであるGoogleは、2024年2月に最新基盤モデルであるGemini 1.5 Proを発表したのと同時に、同モデルのテクニカルレポートも公開した(※6)。このレポートには、同モデルのリスクを評価するために実施したテストが解説されている。 Gemini 1.5 Proに実施されたテストは、おおむねGPT-4oとOpenAI o1シリーズで実施されたそれと類似している。興味深いテストには、説得力の評価として人間の評価者とGemini 1.5 Proが古くからの親しい友人という設定で会話を楽しんだ後に、評価者に同モデルと「また話したいか」と尋ねるものがあった。このテストの結果、同モデルは先行モデルよりまた話したいと思われることがわかった。 以上のテストは一見すると、Gemini 1.5 Proの長所を明らかにしている。しかしながら、人間の対話者に好感をもたれることを悪用すれば、対話者をだまして何らかの被害を負わせることも可能となる。それゆえ、このテストはリスク評価の一環として実施されたのだ。 ChatGPTやGeminiと並んで注目されている基盤モデルとして、AIスタートアップのAnthropicが開発したClaudeシリーズがある。同シリーズの最新版Claude 3.5 Sonnetは、プロンプトを入力すると簡単なウェブアプリを生成する機能「アーティファクト(Artifacts)」を実装することで、ほかの基盤モデルとの差別化を図っている(※7)。 Anthropicは、OpenAIの準備フレームワークに類似したリスク評価制度RSP(Responsible Scaling Policy:責任あるスケーリング指針)を発表している(※8)。この制度も、基盤モデルがもつ存亡リスクをASL(AI Safety Level:AI安全性レベル)1から4以上の4段階に分類しており、ASL-2までのモデルを公開可能としている。 Claude 3.5 Sonnetは、その公開前にRSPが実施された。その結果、ASL-2に相当すると評価されたので、同モデルは公開されたのだった。こうしたリスク評価に加えて、Anthropicはユーザーのプライバシーを保護するために、同モデルに入力されたデータを学習データとして利用しないことを明言している。 以上のように、知名度の高い優秀な基盤モデルは、いずれも存亡リスクに関する評価と対策が施されている。もっとも、これらの施策は各基盤モデルメーカーが独自に行ったものであり、法的に義務づけられたものではない。OpenAI o1シリーズの性能と昨今のAIの進化を鑑みれば、基盤モデルの存亡リスクを各メーカーの自主管理に委ねたままにするのは、望ましいとは言い難い。今後は、各国および国際社会が基盤モデルの安全管理に関して何らかの法整備を進めるようになるだろう。 (※1)OpenAI「Preparedness Framework (Beta)」 https://cdn.openai.com/openai-preparedness-framework-beta.pdf (※2)OpenAI「GPT-4o System Card」 https://openai.com/index/gpt-4o-system-card/ (※3)OpenAI「Introducing OpenAI o1-preview」「OpenAI o1-mini」 https://openai.com/index/introducing-openai-o1-preview/ https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/ (※4)Tracking AI「IQ Test Results」 https://trackingai.org/IQ (※5)OpenAI「OpenAI o1 System Card」 https://openai.com/index/openai-o1-system-card/ (※6)Google「次世代モデル、 Gemini 1.5を発表」 https://blog.google/intl/ja-jp/company-news/technology/gemini-model-february-2024-jp/ (※7)Anthropic「Claude 3.5 Sonnet」 https://www.anthropic.com/news/claude-3-5-sonnet (※8)Anthropic「Anthropic's Responsible Scaling Policy」 https://www.anthropic.com/news/anthropics-responsible-scaling-policy
吉本幸記