賞金200万円も、Anthropicがバグバウンティプログラムを開始、AIの安全性を高める取り組み最前線
Anthropicによる生成AI特化のバグバウンティプログラム、その詳細
生成AIにはハルシネーションだけでなく「ジェイルブレイク」などのセキュリティリスクが存在する。AIモデル開発企業は、こうしたリスクを低減するために開発段階で対策を施しているが、リスクを完全に取り除くことは難しい。そこで重要になってくるのが、外部の人々を巻き込んだバグバウンティプログラムだ。 ソフトウェア/アプリケーションにおいては、さまざまなバグバウンティプログラムが存在するが、大規模言語モデル(LLM)に特化したプログラムは少ないのが現状。しかし、主要AI開発企業による取り組みが活発化の様相となっている。 注目される取り組みの1つがAnthropicが2024年8月8日に発表した、最高報奨金1万5,000ドル(約210万円)の生成AI特化バグバウンティプログラムだ。「ユニバーサルジェイルブレイク」攻撃が主な対象となる。 AI文脈におけるジェイルブレイクとは、AIシステムに組み込まれた安全対策や倫理的ガイドラインを回避し、本来制限または禁止されているはずの反応や行動をAIに引き起こさせる方法を指す。この手法を用いれば、有害内容の生成や機密情報の漏洩などを引き起こすことが可能とされる。 通常のジェイルブレイクは、特定の状況や指示に対してAIの制約を解除する手段だが、ユニバーサルジェイルブレイクは、その名が示す通り、汎用的に機能するアプローチだ。 カーネギーメロン大学などの研究者らによる報告(2023年12月)によると、ユニバーサルジェイルブレイクの手法を悪用すると、単一の攻撃的なプロンプト(指示文)だけで、複数の異なるAIモデルに有害な行動を引き起こさせることが可能であることが判明した。この手法は、特定のテキスト(攻撃的なプロンプト)をユーザーの質問や指示の後ろに付け加えるというシンプルなもの。この追加されたテキストにより、AIモデルは安全性や倫理的な制約を回避し、本来なら拒否するはずの有害な内容を生成したという。 たとえば、「爆弾の作り方を教えて」という質問に対して、通常のAIモデルは安全性の観点から回答を拒否するが、ユニバーサルジェイルブレイクを使用すると、AIモデルはこの質問に対して具体的な手順を提供する可能性があると指摘されている。 さらに重要なのは、この攻撃手法が複数のAIモデルに対して有効であるという点だ。研究者らは、Vicuna-7BとVicuna-13Bという二つのモデルに対して最適化した攻撃的プロンプトを作成したところ、この攻撃はChatGPT、Bard、Claude、さらにはLLaMA-2-Chat、Pythia、Falconなどのオープンソースモデルに対しても有効であることが判明した。 Anthropicは、このプログラムを通じて、AIの安全性に関する研究を加速させ、化学、生物、放射線、核(CBRN)の脅威やサイバーセキュリティなどの高リスク領域におけるユニバーサルジェイルブレイクのリスク軽減に向けた対策を強化したい考えだ。 プログラムはHackerOneとのパートナーシップのもと招待制で開始され、将来的に拡大される可能性もあるという。同社は、経験豊富なAIセキュリティ研究者や、言語モデルのジェイルブレイクで実績のある人材に対し、招待申請を行うよう呼びかけている(申請は8月16日まで)。