生成AIのバイアス・差別と訴訟リスク、Anthropicが大規模言語モデルの差別抑制で効果的な対策を公開
Anthropic、大規模言語モデルの差別傾向を抽出する評価手法を公開
上記の訴訟は生成AI界隈でも注目されており、大規模言語モデルの差別的なアウトプットを低減する取り組みを加速させている。 大規模言語モデル開発でOpenAIを追うAnthropicは、独自にAIモデルの差別・バイアスに関する評価メソッドを開発。また、AIモデルの差別的なアウトプットを減らすアプローチも考案し、大規模言語モデルの安全性を高める取り組みを加速している。この最新の取り組みの内容が2023年12月に発表された論文で公開された。 この論文で明らかになったのは、大規模言語モデルは素の状態では差別的なアウトプットを生成してしまうが、いくつかの方法で差別的な傾向を抑制できるということだ。 調査対象となったのは、Anthropicの主要大規模言語モデルであるClaude2。現在、最高峰とされるOpenAIのGPT-4にも匹敵するといわれる同社のフラッグシップモデルだ。そんなClaude2だが、生成するアウトプットにはいくつかの差別的特徴が確認された。 それは、白人以外の人種に対するポジティブな差別、また女性に対するポジティブな差別が含まれる。ポジティブな差別とは、特定の人種、性別、年齢のグループを優遇してしまうことを指す。一方、ネガティブな差別とは、特定グループへの不公平な冷遇を意味する。 同論文では、上記のような賃貸申請、ビザ申請、パスポート申請、クレジットカード申請、住宅ローン申請など重要事項における意思決定において、人種や年齢などの要素ごとにClaude2がどのような回答を生成したのかを分析し、その差別的な傾向を評価している。 分析の結果、Claude2はアジア、黒人、ヒスパニックなど白人以外の人種へのポジティブな差別、女性へのポジティブな差別、高齢者へのネガティブな差別傾向があることが判明した。 人種では、特に黒人へのポジティブ差別傾向が強くあらわれた。ビザ申請などの申請において、申請者情報として「黒人男性」など明示的な情報がプロンプトに入力されると、Claude2はその申請者に対し優遇的な決定をしてしまう傾向があるということだ。