AI検知ツールには英語ネイティブ以外を「AI」と誤判定するバイアスがある、その根深い理由とは?
AI検知ツールに、英語ネイティブ以外を「AI」と誤判定するバイアス(偏見・差別)がある――。
スタンフォード大学の研究チームは7月10日付で公開した論文で、そんな調査結果を明らかにしている。
生成AIの教育現場での課題は、学生がその生成テキストをコピー&ペーストし、レポートなどとして提出することへの懸念だ。
その懸念に対応するのが、オープンAIなどが公開しているAI生成テキストの検知ツールだ。
ただ、その機能は十分ではなく、人間のテキストを「AI」と判定したり、AIによるテキストを「人間」と判定したりする誤検知も含まれる。
そして、その誤検知の割合は、英語ネイティブの場合は極めて低く、英語圏以外の非ネイティブの場合には6割以上と高くなる、と研究チームは指摘する。
生成AIには、人種、性別、宗教などの様々なバイアスがあることが知られている。
日本人も含まれる非英語ネイティブへのバイアスの、根深い理由とは?
●平均61.3%の誤検知
スタンフォード大学助教のジェームズ・ゾウ氏らの研究チームは、7月10日付で学術誌「パターンズ」に公開した論文の中で、そう述べている。
研究チームが指摘するのは、米国の学生の作文はほぼ正確に判定されたのに対して、中国の学生が留学生向け英語テスト「TOEFL」用に書いた作文に対する、AIテキスト検知ツールの誤判定率の高さだ。
研究チームは7つのAIテキスト検知ツールを使用。米国の学生の作文は誤判定率が平均で5.1%だったのに対し、中国の学生の作文は平均で61.3%が「AI生成」と、大半が誤判定されたという。
中国の学生の作文のうち19.8%については7つのAIツールが一致して「AI生成」と誤判定していた。少なくとも1つのツールが「AI生成」と判定した作文は97.8%に上ったという。
チャットGPTの爆発的な人気による生成AIブームを受け、教育現場で懸念されてきたのが、学生による「生成AIを使った盗用(剽窃)」の問題、すなわち生成AIによるテキストをコピー&ペーストでレポートや論文として提出することへの懸念だ。
※参照:「ChatGPTのコピペ対策は難しい」とChatGPTが書いた論文が指摘、学校での対策のカギとは?(03/27/2023 新聞紙学的)
その対応策として注目されるのがAIテキスト検知ツールだ。チャットGPTの開発元、オープンAIや、剽窃チェックサービス「ターンイットイン」などが相次いで検知ツールを公開している。
だが、そこに付きまとうのが誤判定の問題だ。
AIテキスト検知ツールが広く使われるようになると、誤判定を受けることによって「不正行為(剽窃)」の責任を問われるリスクがある。
つまり、学校における成績評価や、企業の採用審査において、大きな不利益を被る可能性があるのだ。
研究チームは、AIテキスト検知ツールには非英語ネイティブに対するそのようなバイアスがあるのだという。
●テキストの「複雑度」の評価
検知ツールがAIテキスト判定の基準としているのは、テキストの「パープレクシティ(複雑度)」と呼ばれる指標だという。
生成AIは、確率的にもっともらしい単語のつながりを推測し、出力する。検知ツールは逆に、そのテキストの推測のしやすさ(「複雑度」の低さ)を手がかりに、AI判定をするという。
そして、英語ネイティブは多様な語彙があり、入り組んだ構文も可能なために「複雑度」は高くなるが、非英語ネイティブは、言語表現の範囲が限られるため、テキストの「複雑度」も低くなるという。
実際に、7つの検知ツールが一致して「AI生成」と判定した19.8%の作文は「複雑度」が低かったとしている。
ただ、検知ツールの「複雑度」の指標は、回避も容易だという。
回避の決め手も、チャットGPTだった。
研究チームはチャットGPTを使い、中国の学生の作文91本の語彙レベルをネイティブ並みに上げる修正を加えたところ、検知ツールによる誤判定率は61.3%から11.6%まで、49.7ポイントも低下。
逆にネイティブの作文の語彙レベルを非ネイティブ並みに下げたところ、誤判定率は5.1%から56.9%へ急上昇したという。
これとは別に、チャットGPTで2022~2023年用の大学共通入学申請(コモン・アプリケーション)の作文用にテキストを作成し、検知ツールにかけたところ「AI生成」の判定率は70%だった。
だが、チャットGPTに「文学的な表現を使う」と修正を指示したところ、検知ツールの「AI生成」の判定率は3.3%にまで急落したという。
●非ネイティブへのバイアス
研究チームはそう指摘し、「多くのGPT検知ツールの設計は、本質的に非ネイティブの筆者を差別している」と述べる。
さらに、AI検知ツールの誤判定は、非英語ネイティブのコミュニティに「AI剽窃」の濡れ衣を着せるリスクがあると指摘。
非英語ネイティブは、その対策としてチャットGPTを活用し、機械的に作文の「複雑度」を上昇させる、という皮肉なサイクルを引き起こす可能性もあるとしている。
研究チームは、教育現場でのAI検知ツールの使用に注意を呼びかけ、検知ツールに対する総合的な評価が必要だと指摘している。
これまでも、生成AIには人種、性別、宗教など、様々なバイアスがあることが指摘されている。
学習データに反映された現実社会のバイアスも、AIは学習してしまうからだ。
今回と同じ、スタンフォード大学のジェームズ・ゾウ氏とカナダのマクマスター大学の研究チームが2021年6月に「ネイチャー・マシン・インテリジェンス」に発表した論文では、GPT-3に「2人のイスラム教徒が立ち入ると……」という文章の続きを指示すると、100回のうち66回で「爆弾」「発砲」など暴力に関わる表現が続いたという。
また、カリフォルニア大学バークレー校准教授のスティーブン・ピアンタドーシ氏は2022年12月、チャットGPTを使って、人種とジェンダーに基づいて「すぐれた科学者」をチェックするプログラムを書くよう指示したところ、「白人」と「男性」を条件として判定するプログラムを出力したという。
●生成AIのツイートの方が信用される
問題は、AIテキスト検知ツールの誤判定率だけではない。
人間もまた、AI生成テキストを見分けられず、人間のテキストよりも、AI生成テキストを信用してしまう傾向がある。
チューリッヒ大学のフェデリコ・ジェルマーニ氏らの研究チームは、6月28日付の「サイエンス・アドバンシズ」の論文で、こう指摘している。
研究チームは、チャットGPTの前身、GPT-3を使い、ワクチン、5G、新型コロナ、進化論といったテーマで、正確な情報と偽情報のツイートを作成。ツイッター上からも、人間による正確な情報と偽情報のツイートを収集した。
その上で、英国、オーストラリア、カナダ、米国、アイルランドなど697人の調査対象者の回答を分析した。
その結果、偽情報のツイートを「誤り」と判定できた割合は、人間によるツイートが92%に対して、GPT-3のツイートは89%だった。
また正しい情報を「正しい」と判定できた割合は、人間によるツイートが72%に対して、GPT-3のツイートは84%だった。
つまり、偽情報にだまされる割合は、GPT-3のツイートの方が人間のツイートよりも3ポイント高く、正しい情報を判定できる割合もGPT-3のツイートの方が人間のツイートよりも12ポイント高かったのだ。
GPT-3のツイートの方が偽情報、正しい情報ともに、人間のツイートよりも説得力が高かったことになる。
そして研究チームは、回答者が、AIによって生成されたツイートと実際の人間によるツイートを区別できなかった、とも指摘している。
●「人間」か「機械」か
それは、「人間」か「機械」か。
その区別は必要だ。だが、決め手がない。
(※2023年7月12日付「新聞紙学的」より加筆・修正のうえ転載)