「AIが生成したゴミでネットが汚染された」研究用データベースが更新停止したわけとは?
「AIが生成したゴミでネットが汚染された」と研究用データベースの更新停止を表明――。
日本語を含む40を超す言語をカバーしたオープンソースの研究用データベース「ワードフリーク(Wordfreq)」が、更新停止を表明した。テックメディア「404」が報じている。
停止の理由として挙げているのが、「生成AIによるデータ汚染」だ。
ニュース、商品レビューから論文まで、ネットで目にするテキストの書き手は、急速にAIに取って代わられつつある。
このため、AIによる人工的なテキストの氾濫によって、データベースの結果が「歪められてしまう」のだという。
さらに「生成AIによるデータ汚染」は、生成AIそのものにとっても"有毒"だとされる。
情報空間の「AI汚染」は、ユーザーの気づかぬところで、その影を着実に広げている。
●「大規模言語モデルによるゴミだらけ」
単語の出現頻度を調べるためのパイソン用ライブラリ「ワードフリーク」を運営してきたロビン・スピア氏は、9月19日付で、そんな声明を公開した。
「ワードフリーク」は自然言語処理(NLP)のためのライブラリとして、ウィキペディアやニュース、動画字幕、書籍、ウェブサイト、ツイッター(現X)、ソーシャルニュースサイト「レディット」など、ネット上の2021年までの膨大な公開データをもとに、日本語や英語、アラビア語など44言語を対象に運営。数億語当たり1回といった出現頻度の単語もカバーする。
スピア氏は、米マサチューセッツ工科大学(MIT)メディアラボ発のデータ分析会社「ルミノソ」の最高科学責任者(CSO)を務める。「ワードフリーク」は2015年7月公開の「バージョン1.0」から2023年11月の「バージョン3.1.1」まで更新を続けてきた。
だが、そのソースとなるウェブのテキストそのものが、チャットGPTなどの生成AI(大規模言語モデル)が吐き出した「ゴミのようなコンテンツで溢れている」のだという。
スピア氏がその一例として挙げるのが、マンチェスター大学教授、フィリップ・シャピラ氏らが指摘した「掘り下げる(delve)」という単語の出現頻度の急増だ。
●論文で急増した単語「掘り下げ」
「掘り下げる(delve)」は、チャットGPTに特徴的な頻出語の1つとして知られる。
豪スウィンバーン工科大学上席講師、ジェレミー・グウェン氏は3月30日、Xへの投稿で、医学系の学術文献検索サイト「パブメド」を使った調査で、「delve」の出現頻度が、チャットGPTが普及した2023年以降急増している、とのデータを公表。2022年から2024年にかけて、「delve」を使う医学研究論文の割合が10倍に跳ね上がった、と指摘した。
前述のマンチェスター大学のシャピラ氏は、別の論文データベース「オープンアレックス」を使って同様の調査を実施。
1990年から2024年3月31日までに投稿された「delve」に言及している6万6,158件の論文のうち、3万276件(46%)が2023年1月から2024年3月末までの15か月間に発表されていたという。
そして、タイトルか要旨に「delve」を使った論文の割合は2022年の0.056%から2024年には0.793%に急増していたという。
シャピラ氏はこう述べている。
このような生成AIによる特定の単語の出現頻度の急増が、冒頭のスピア氏が指摘する「歪み」につながるのだという。
スピア氏は、こう指摘する。
●ニュース、商品レビュー、そして自動生成サイト
生成AIによるテキストが出現するのは、論文だけではない。「ワードフリーク」がデータ収集先としてきた、あらゆる分野で同様の事態が起きている。
すでにニュースメディアでも、生成AIによるコンテンツが溢れる。
※参照:「AI幽霊ライター」が続々と徘徊、大リストラが襲う老舗メディアの“怖い話”とは?(11/30/2023 新聞紙学的)
※参照:AIが大手メディアのジャーナリストを追い払う、その実態とは?(07/06/2023 新聞紙学的)
それだけでなく、影響工作、選挙目的、広告収入目当てなど、様々な思惑から生成AIを使った偽装ニュースサイトのネットワークも急速に拡大している。
※参照:米大統領選でも暗躍! 生成AI導入で急増する「偽装ニュースサイト」の闇(06/15/2024 週刊プレイボーイ)
※参照:生成AI悪用で最多は「世論操作」約3割、その実態とは(06/26/2024 新聞紙学的)
チャットGPTなどを使った偽の商品レビューも、その急速な拡大とともに問題化。米連邦取引委員会(FTC)が8月14日に禁止規定を盛り込んだ新たな規則を発表している。
また、生成AIを使って即席で作り出す偽書籍も、アマゾンなどにはびこる。
●生成AIへの"毒"
生成AIがつくり出すコンテンツは、AIの視点で見ると「データ汚染」であり、それを学習し続けることでAIのモデルが崩壊してしまう――。
そんな生成AIの"自家中毒"による「AIモデル崩壊」の問題を指摘したケンブリッジ大学、オックスフォード大学、インペリアル・カレッジ・ロンドン、トロント大学の研究チームによる論文が7月24日付で「ネイチャー」に掲載された。
同論文は査読前にレポジトリサイト「アーカイブ」で2023年5月に公開され、すでに注目を集めていた。
※参照:生成AIによる「データ汚染」で生成AIが崩壊する、それを防ぐには?(06/23/2023 新聞紙学的)
※参照:「読者はAIだけ」ライターの新たな仕事と”2026年問題”とは(09/09/2024 新聞紙学的)
生成AIコンテンツによる「データ汚染」は、人間による言語の使用を研究する上での障害となるだけでなく、生成AIそのものの学習にとっても、"有毒"だということになる。
「人間による言語の使用について、2021年以降の信頼できる情報を持っている人はいないだろう」と、上述の「ワードフリーク」開発者のスピア氏は述べている。
スピア氏が「ワードフリーク」更新停止の理由として挙げているのは、「データ汚染」のほかにもう1つある。データ収集のハードルだ。
これまで研究のデータソースとなってきたXやレディットは、データ使用料が必要となった。
大規模で高品質のデータ収集は、今やオープンAIやグーグルのような資金力のある企業だけが可能な行為となりつつある。
スピア氏はそう述べている。
(※2024年9月24日付「新聞紙学的」より加筆・修正のうえ転載)