生成AIが危険なコードや回答を生成するリスク、メタのPurple Llamaが示すAIの危険度
生成AIが生成する脆弱なコード、危険なプロンプト/回答
短期間にさまざまな分野で目を見張る進化を遂げる生成AI。企業においてもマーケティングなどで導入するケースが増えている。 しかし同時に生成AIの安全性に対する懸念も大きくなっており、AI企業各社は安全対策取り組みの強化に乗り出している。この生成AIの安全対策において存在感を示しているのがメタだ。 同社は2023年末、生成されるコードの脆弱性/危険性を分析しつつ、大規模言語モデルの安全性を評価するベンチマークツール「CyberSecEval」と大規模言語モデルのインプットとアウトプットの有害性/危険性を評価する「Llama Guard」を発表。これらを合わせて生成AIの安全性を強化する「Purple Llama」イニシアチブとして推進することを明らかにした。 一般的に企業/組織においては、サイバー攻撃に対抗するため社内にサイバーセキュリティ部門(ブルーチーム)を設置している。一方、稀ではあるが、意図的なサイバー攻撃を行い、企業ネットワークの脆弱性を見つけ出す「レッドチーム」を配置する企業もある。現在、サイバーセキュリティ分野では、さらなる改善を目指し、このブルーチームとレッドチームを組み合わせ、攻撃と防御における知見をさらに深める「パープルチーム」を編成する取り組みが増えている。メタの「Purple Llama」は、このパープルチームのコンセプトを踏襲したイニシアチブとなる。 メタがこの取り組みで焦点を当てているのが、生成されたコードの脆弱性/危険性だ。 実際すでにコーディング領域では、生成AIの活用が爆発的に増え、多くのコードがAIによって生成されており、生成されたコードの脆弱性/危険性を評価する必要性が高まっている。 メタの報告によると、世界最大のレポジトリプラットフォームGitHubでは、同プラットフォームに保存されているコードの46%が、AIコード生成ツールCoPilotによって生成されたという。また、メタが開発したコード生成AIツールCodeComposeによって生成されたコードは、ユーザーによって22%の割合で使われていることが明らかになった。 さらに別の調査では、AIツールが生成したコードにバグがある場合でも、ユーザーがそれを受け入れる可能性は、自分で書いた場合に比べ10%高くなる傾向も観察されている。