「これは人間が書いた」GPT-4の文章に6割の人がだまされる、その深刻なインパクトとは?
「これは人間が書いた」GPT-4の文章に6割の人がだまされる――。
そんな調査結果をスペインのベンチャー企業が明らかにしている。
チャットGPTの土台となる大規模言語モデル(LLM)のGPT-4は、前身のGPT-3.5に比べてより高性能で、自然な文章を生成できる。
そしてこの調査によると、チャットGPTの文章を「人間が書いた」「人間が編集した」とだまされる割合も、10ポイント以上高くなった、という。
GPTを使ったこれまでの研究でも、高い割合で人間がだまされることが明らかになっている。
そのインパクトは、フェイクニュースが氾濫する社会の様々な場面に暗い影を落とす。
その一つが、民主主義だ。
●GPT-4で10ポイント上昇
スペイン・バルセロナのウェブツールレビューサイト「ツールテスター」は3月31日付で、そんな調査結果を発表している。
調査ではまず2月20日から26日にかけて、米国の成人1,920人を対象に、GPT-3.5を搭載したチャットGPTを使って実施。さらに、GPT-4が公開された後の3月22日から25日にかけて、やはり米国の成人1,394人を対象にGPT-4を搭載したチャットGPTを使って、同じ内容で実施した。
調査では、「株式や債券、投資信託などの証券に投資するにはどうすればよいですか?」「私に最適なインターネットプロバイダーはどこですか?」といった、テクノロジー、エンターテインメント、旅行、ファイナンス、健康の5分野25の質問に対する、GPTの回答、人間の回答、GPTの回答を人間が編集した回答、の3パターンのコンテンツを作成。
質問と回答の計75の組み合わせをランダムに調査対象者に示し、回答の作成元を3択で判定してもらった。
その結果、GPT-4が作成した回答に対して、「人間の回答」「AIの回答を人間が編集」と間違って答えたのは全体の63.5%に上った。
分野別にみると最も間違いが多かったのは旅行の66.5%。以下、エンターテインメント(65.9%)、ファイナンス(63.2%)、健康(62.2%)、テクノロジー(60.3%)の順だった。
これに対してGPT-3.5が作成した回答を「人間の回答」「AIの回答を人間が編集」としたのは全体で53.1%。
分野別では、健康(56.1%)、ファイナンス(54.2%)、旅行(53.3%)、エンターテインメント(52.7%)、テクノロジー(49.0%)だった。
すべての分野で、GPT作成の回答を「人間が作成・編集した」と間違える割合が10ポイント前後高くなっていた。
さらにGPT-3.5を使った1回目の調査では、人間が作成したコンテンツについて、「AIの回答」とした割合の高さも指摘している。
分野別では、テクノロジーで48.4%に上り、以下、健康で44.9%、エンターテインメントで44.8%、ファイナンスで42.5%、旅行で40.5%が間違えていた。
また1回目の調査では、AIの回答を正答できた割合を、年齢別でも示している。
それによると、最も正答率が高かったのは65歳以上の52.0%、以下、35―44歳(49.8%)、45―54歳(49.6%)、55―64歳(49.1%)、25―34歳(44.9%)と続き、Z世代とも呼ばれる18―24歳が最も低い40.2%だった。
さらに1回目の調査の回答者の80.5%が、ブログやニュース記事を投稿するオンラインメディアは、その作成にAIが関わっているかどうかを明示する必要がある、としていた。
●政治家も見分けがつかない
コーネル大学教授のサラ・クレプス氏とダグラス・クライナ―氏は3月21日、米シンクタンク、ブルッキングス研究所の公式サイトで、そんな調査結果を明らかにした。
クレプス氏らが調査したのは、人間とAIが作成した陳情書に対して、州議会議員の反応に違いがあるのか、という点だ。
つまり、政治家はAIが大量生成する「世論」を見分けられるのか、という問題だ。
調査では、全米約7,200人の州議会議員を対象に、GPT-3と人間が、銃規制、健康、リプロダクティブ・ヘルス/ライツ(性と生殖に関する健康と権利)、治安、教育、税の6分野の政策課題について、右派と左派、それぞれの立場を擁護する計3万2,398通の陳情(議員1人当たり5通相当)を作成し、メールでランダムに送信した。
議員から返信があった場合には、その内容に一定の信憑性を判断したと見なし、GPT-3と人間の文面への反応の違いを分析した。
その結果、銃規制と健康では、GPT-3と人間の文面への信憑性の判断はほぼ同じで、教育ではGPT-3がやや上回った。治安、リプロダクティブ・ヘルス/ライツ、税では人間が上回ったが、その差は4%程度だったという。
これまでも、パブリックコメントなどで自動生成プログラムを使った大量のコメントが送付されるケースはあった。
2021年には、米連邦通信委員会(FCC)が2017年に実施したネット中立性廃止をめぐるパブリックコメント2,200万件のうち、1,800万件近くが捏造されたものだったことが、明らかになっている。
このうち850万件は、中立性廃止を後押しするコムキャストやAT&Tなど大手通信会社による業界団体が資金提供したものだった。一方では、中立性支持の19歳がたった一人で770万件のコメントを捏造していた、という。
オープンAIは利用規約で、政治キャンペーンでのチャットGPTなどの使用を禁じている。
ただ、それが守られるかどうかは、別問題だ。
ニューヨーク・タイムズの3月28日付の報道によれば、米民主党全国委員会はチャットAIを使った献金呼びかけなどの実験を始めているという。
●GPT-2、GPT-3でもだまされた
AIが生成したテキストコンテンツについて、多くの人間が「人間によるもの」とだまされてしまう傾向は、以前から指摘されてきた。
※参照:AIによるフェイクレポートの8割を「本物判定」、人間はかなりダマされる(06/11/2021 新聞紙学的)
メリーランド大学ボルチモアカウンティ校とノースカロライナ大学ウィルミントン校の研究チームは2021年2月 GPT-2を使って作成した架空のセキュリティレポートの効果について、その検証結果をまとめている。
GPT-2は、オープンAIがその2019年2月に限定公開、同年11月に最終版を公開した、GPT-3に先行するオープンソースのモデルだ。
研究チームはGPT-2を使い、サイバーセキュリティの脅威に関する架空のレポートを生成。本物のレポートと架空のレポートを半々で、計560本を用意し、サイバーセキュリティの専門家ら10人に、それぞれ56本ずつ提示して判定をしてもらった。
その結果、280件あった架空のレポートのうち、220件(78.5%)が専門家によって「本物」と誤判定されたという。
さらにジョージタウン大学の研究チームは2021年5月、GPT-3で作成したフェイクニュースの効果の検証結果をまとめている。
GPT-3は2020年6月に公開されたGPT-2の後継モデルで、その性能を示すパラメータ数は、GPT-2に比べて100倍以上の1,750億に上る。
研究チームは、フェイクニュースを使った情報工作にまつわる6つのタスクについて、GPT-3を使って検証。
その中でも、「ナラティブ(物語)によって、標的とした集団の見解を変えさせるコンテンツの生成」では、米国の1,171人を対象に調査を行っている。
調査では、「米軍のアフガン撤退」「中国への制裁」というテーマについて、GPT-3を使って民主党支持者、共和党支持者向けに、反対と賛成を主張するメッセージをそれぞれ作成。
その上で対象者の反応についてアンケート調査を行ったところ、全体の63%が「説得力がある」と回答した。
さらに、それぞれのメッセージによる対象者の意見の変化を調べたところ、特に「中国への制裁」をめぐって、GPT-3が生成した「制裁反対」のメッセージを見たグループは、メッセージを見なかったグループに比べて、「制裁反対」の回答が約2倍の44%となっていた。
研究チームは、そう述べている。
●高度化続けるAI
GPT-3、そしてGPT-4と、チャットAIは急速な進化を続ける。
オープンAIは、AIが生成した文章かどうかを判別するツールを公開している。ただ、精度には限界があり、その結果のみで判断しないよう、注意書きをつけている。
私たちの目、社会の目は、それに追いついていけるのだろうか。
コーネル大学のクレプス氏らの研究結果を報じたニューリパブリックの記事は、GPT-3によるメールの文面を見破った、州議会議員の例を紹介している。
その議員の選挙区は所得層が高い地域ではなく、有権者は普段から「(陳情を)話すように書いてくる」のだという。
だが、GPT-3が書いた文面はフォーマルなものだったため、迷惑メールか選挙区外からのメールと見なして、無視していたのだという。
人をしっかり見ていることは、より重要になる。
(※2023年4月14日付「新聞紙学的」より加筆・修正のうえ転載)