「AIが生成したゴミでネットが汚染された」研究用データベースが更新停止したわけとは？

平和博

桜美林大学教授　ジャーナリスト

9/24(火) 6:55

「生成AIがネットを汚染」 By Paul Hudson (CC BY 2.0)

「AIが生成したゴミでネットが汚染された」と研究用データベースの更新停止を表明――。

日本語を含む40を超す言語をカバーしたオープンソースの研究用データベース「ワードフリーク（Wordfreq）」が、更新停止を表明した。テックメディア「404」が報じている。

停止の理由として挙げているのが、「生成AIによるデータ汚染」だ。

ニュース、商品レビューから論文まで、ネットで目にするテキストの書き手は、急速にAIに取って代わられつつある。

このため、AIによる人工的なテキストの氾濫によって、データベースの結果が「歪められてしまう」のだという。

さらに「生成AIによるデータ汚染」は、生成AIそのものにとっても"有毒"だとされる。

情報空間の「AI汚染」は、ユーザーの気づかぬところで、その影を着実に広げている。

●「大規模言語モデルによるゴミだらけ」

今やウェブ全体が、大規模言語モデル（LLM）が生成した、人間が何かを伝えるために書いたわけではないゴミのようなコンテンツで溢れている。このようなゴミをデータに含めると、単語の出現頻度に歪みが生じてしまう。

単語の出現頻度を調べるためのパイソン用ライブラリ「ワードフリーク」を運営してきたロビン・スピア氏は、9月19日付で、そんな声明を公開した。

「ワードフリーク」は自然言語処理（NLP）のためのライブラリとして、ウィキペディアやニュース、動画字幕、書籍、ウェブサイト、ツイッター（現X）、ソーシャルニュースサイト「レディット」など、ネット上の2021年までの膨大な公開データをもとに、日本語や英語、アラビア語など44言語を対象に運営。数億語当たり1回といった出現頻度の単語もカバーする。

スピア氏は、米マサチューセッツ工科大学（MIT）メディアラボ発のデータ分析会社「ルミノソ」の最高科学責任者（CSO）を務める。「ワードフリーク」は2015年7月公開の「バージョン1.0」から2023年11月の「バージョン3.1.1」まで更新を続けてきた。

だが、そのソースとなるウェブのテキストそのものが、チャットGPTなどの生成AI（大規模言語モデル）が吐き出した「ゴミのようなコンテンツで溢れている」のだという。

スピア氏がその一例として挙げるのが、マンチェスター大学教授、フィリップ・シャピラ氏らが指摘した「掘り下げる（delve）」という単語の出現頻度の急増だ。

●論文で急増した単語「掘り下げ」

「掘り下げる（delve）」は、チャットGPTに特徴的な頻出語の1つとして知られる。

豪スウィンバーン工科大学上席講師、ジェレミー・グウェン氏は3月30日、Xへの投稿で、医学系の学術文献検索サイト「パブメド」を使った調査で、「delve」の出現頻度が、チャットGPTが普及した2023年以降急増している、とのデータを公表。2022年から2024年にかけて、「delve」を使う医学研究論文の割合が10倍に跳ね上がった、と指摘した。

前述のマンチェスター大学のシャピラ氏は、別の論文データベース「オープンアレックス」を使って同様の調査を実施。

1990年から2024年3月31日までに投稿された「delve」に言及している6万6,158件の論文のうち、3万276件（46%）が2023年1月から2024年3月末までの15か月間に発表されていたという。

そして、タイトルか要旨に「delve」を使った論文の割合は2022年の0.056％から2024年には0.793％に急増していたという。

シャピラ氏はこう述べている。

「delve」の使用の増加が、著者が論文を磨くためではなく、実際に（または実質的に）論文執筆のためのチャットGPT使用が増えていることを示しているとすると、特にその論文がチャットGPTやその他の生成AIモデルの使用を明示していない場合は、懸念が生じる。

このような生成AIによる特定の単語の出現頻度の急増が、冒頭のスピア氏が指摘する「歪み」につながるのだという。

スピア氏は、こう指摘する。

「ワードフリーク」のデータソースにもスパムはあったが、管理することは可能で、識別できることも多かった。だが大規模言語モデルは、意図など持たないのに、意図のある本物の言語のように偽装したテキストを生成し、出力されたテキストはあらゆるところに出現する。

●ニュース、商品レビュー、そして自動生成サイト

生成AIによるテキストが出現するのは、論文だけではない。「ワードフリーク」がデータ収集先としてきた、あらゆる分野で同様の事態が起きている。

すでにニュースメディアでも、生成AIによるコンテンツが溢れる。

※参照：「AI幽霊ライター」が続々と徘徊、大リストラが襲う老舗メディアの“怖い話”とは？（11/30/2023 　新聞紙学的）

※参照：AIが大手メディアのジャーナリストを追い払う、その実態とは？（07/06/2023　新聞紙学的）

それだけでなく、影響工作、選挙目的、広告収入目当てなど、様々な思惑から生成AIを使った偽装ニュースサイトのネットワークも急速に拡大している。

※参照：米大統領選でも暗躍！　生成AI導入で急増する「偽装ニュースサイト」の闇（06/15/2024　週刊プレイボーイ）

※参照：生成AI悪用で最多は「世論操作」約3割、その実態とは（06/26/2024　新聞紙学的）

チャットGPTなどを使った偽の商品レビューも、その急速な拡大とともに問題化。米連邦取引委員会（FTC）が8月14日に禁止規定を盛り込んだ新たな規則を発表している。

また、生成AIを使って即席で作り出す偽書籍も、アマゾンなどにはびこる。

●生成AIへの"毒"

生成AIがつくり出すコンテンツは、AIの視点で見ると「データ汚染」であり、それを学習し続けることでAIのモデルが崩壊してしまう――。

そんな生成AIの"自家中毒"による「AIモデル崩壊」の問題を指摘したケンブリッジ大学、オックスフォード大学、インペリアル・カレッジ・ロンドン、トロント大学の研究チームによる論文が7月24日付で「ネイチャー」に掲載された。

同論文は査読前にレポジトリサイト「アーカイブ」で2023年5月に公開され、すでに注目を集めていた。

※参照：生成AIによる「データ汚染」で生成AIが崩壊する、それを防ぐには？（06/23/2023　新聞紙学的）

※参照：「読者はAIだけ」ライターの新たな仕事と”2026年問題”とは（09/09/2024　新聞紙学的）

生成AIコンテンツによる「データ汚染」は、人間による言語の使用を研究する上での障害となるだけでなく、生成AIそのものの学習にとっても、"有毒"だということになる。

「人間による言語の使用について、2021年以降の信頼できる情報を持っている人はいないだろう」と、上述の「ワードフリーク」開発者のスピア氏は述べている。

スピア氏が「ワードフリーク」更新停止の理由として挙げているのは、「データ汚染」のほかにもう1つある。データ収集のハードルだ。

これまで研究のデータソースとなってきたXやレディットは、データ使用料が必要となった。

大規模で高品質のデータ収集は、今やオープンAIやグーグルのような資金力のある企業だけが可能な行為となりつつある。

オープンAIとグーグルなら、独自のクソデータを収集することができる。そのために非常に高額の支払いを強いられていてほしいし、自ら引き起こした混乱をいつまでも呪ってほしい。

スピア氏はそう述べている。

（※2024年9月24日付「新聞紙学的」より加筆・修正のうえ転載）

Yahoo!ニュース

「AIが生成したゴミでネットが汚染された」研究用データベースが更新停止したわけとは？

●「大規模言語モデルによるゴミだらけ」

●論文で急増した単語「掘り下げ」

●ニュース、商品レビュー、そして自動生成サイト

●生成AIへの"毒"

平和博の書籍紹介

平和博の最近の記事

トピックス（主要）

オーサーアクセスランキング