生成AIによる「データ汚染」で生成AIが崩壊する、それを防ぐには?
生成AIによる「データ汚染」で生成AIが崩壊する――。
英国とカナダの研究チームが5月末に公開した論文が注目を集めている。
論文は、生成AIがつくり出すコンテンツは、AIの視点で見ると「データの汚染」であり、それを学習し続けることでAIのモデルが崩壊してしまうことがわかった、と指摘している。
だが、すでにチャットGPTの急成長をきっかけに、生成AIによるコンテンツがネットを席巻し始めている。米バズフィードは、チャットGPTを活用して、クイズや旅行ガイド、レシピなど、コンテンツの自動生成に拍車をかける。
つくったのはAIか人間か。その見分けがつかないコンテンツが増えれば増えるほど、それを学習した生成AIは自家中毒を起こす。
そんなフィードバックループが生み出す問題を、防ぐ手立てはあるのか?
●「ゴミや二酸化炭素排出と同じ」
ケンブリッジ大学教授のロス・アンダーソン氏は6月6日、同大セキュリティ研究所のブログへの投稿で、自身が参加した研究チームの論文を紹介しながら、そう述べている。
アンダーソン氏が取り上げているのは、同大やオックスフォード大学、インペリアル・カレッジ・ロンドン、トロント大学の研究チームが5月27日に公開した査読前論文だ。
論文が指摘するのは、生成AIによって出力されたコンテンツによるデータの「汚染」と、それが引き起こす「AIモデル崩壊」だ。
論文では、メタがオープンソースで公開している1億2,500万パラメーターの大規模言語モデル(OPT-125m)を使っている。
人間によるコンテンツで学習したAI(第0世代)、第0世代が出力したコンテンツで学習したAI(第1世代)、さらに第1世代が出力したコンテンツで学習したAI(第2世代)...と生成AIのコンテンツによる学習を繰り返し、その影響を調べている。
これが調査に使った入力文で、教会建築に関する説明文のようだ。この入力文に対して、第0世代のAIモデルの出力文はこうだった。
一応、教会建築の文脈に沿った文章だが、ノイズのような部分「@-@」が混じっている。
生成AIコンテンツの学習を繰り返した第9世代になると、このノイズのような部分「@-@」が極端に増幅され、出力文は下記のようにほとんど無意味なものに変わり果てていた。
壊れた機械のような繰り返しだ。
●「AIモデル崩壊」とは
論文では、「AIモデル崩壊」をそう説明している。
なぜ人間によるデータで構築された生成AIのモデルが、生成AIのデータを学習すると崩壊してしまうのか。
アンダーソン氏はブログ投稿の中で、そんな例えを使って説明している。
ピーター・シェーファー氏の戯曲をもとにミロス・フォアマン氏が監督した映画「アマデウス」(1984年)で、天才ヴォルフガング・アマデウス・モーツァルトに嫉妬する凡庸な作曲家として描かれるのが、アントニオ・サリエリだ。
作品の完成度は細部に宿るが、コピー作品はその細部が欠け、輝きを失う。
それと同様に、AI生成のデータでは、人間のデータが持っている多様な分布を削ぎ落してしまい、それが繰り返されることによって、劣化コピーのような結果を生むのだという。
これによって、賢い生成AIが、壊れた機械のように無意味な文章を吐き出すようになってしまう。
SF作家のテッド・チャン氏は2月9日付のニューヨーカーへの寄稿で、「ぼやけたJPEG」という表現で、このような事態を予測していた。チャン氏は映画『メッセージ』の原作『あなたの人生の物語』などで広く知られる。
チャン氏は寄稿の中で、チャットGPTがウェブ上の情報を圧縮し、「もっともらしい」近似値に置き換えると指摘。それを、圧縮された画像ファイルの比喩から「ぼやけたJPEG」と呼び、こう指摘していた。
それが、今回の論文では現実的なリスクとして、明らかにされたことになる。
生成AIから生成AIへと、フェイクニュースが伝言ゲームのように拡散したケースも、すでにある。
グーグルは3月21日、チャットGPTに対抗する生成AIとして、検索機能も持つ「バード」を公開した。
ライターでコンテンツデザイナーのフアン・ブイス氏がその公開当日、バードに対して「バードがサービス停止になるまでにどれぐらいかかる?」と質問したところ、「3月21日にサービス停止しています」と回答したのだという。
バードが出典として挙げたのは、ソーシャルニュースサイト「ハッカーニュース」にその日、ユーザーが冗談で書き込んだコメントだった。チャットGPTに「グーグルはバードの公開から半年もたたずにサービス停止を発表」と回答させた、という内容だった。
さらに、テックニュースサイト「ヴァージ」のシニアエディター、トム・ウォーレン氏によると、マイクロソフトの「ビングチャット」も同日、「バードが3月21日にサービス停止した」と回答したという。
ビングチャットは、マイクロソフトの検索サービス「ビング」に、オープンAIのチャットGPTの最新版「GPT-4」を組み込んだサービスだ。
ビングチャットが出典として挙げたのは、テックニュースサイト「ウインドウズセントラル」がこの話題を取り上げた、「バードが『バード停止』と回答」という記事だった。
ユーザーの冗談で始まったらしい「バード停止」のフェイクニュースは、生成AIをまたがる伝言ゲームとして独り歩きをし、ネットの情報環境を「汚染」していた。
●インターネット・アーカイブの障害
アンダーソン氏らの論文は、このような生成AIによる「データ汚染」のリスクの中で、価値が増すのが人間がつくり出したデータだという。
だが、人間と区別のつかない、生成AIによるコンテンツがネットに氾濫してしまえば、そのようなデータの確保は難しくなってしまう。
そこで優位に立つのが、「AI開発で先行する企業や、ユーザーによるアクセス(ヒューマンインターフェース)を大規模に管理する企業」だとアンダーソン氏らは指摘する。
すでに高度な大規模モデルを開発したオープンAIは、手元に人間がつくった学習データがある。また、グーグルやメタなどのプラットフォームは、膨大な数のユーザーによるサービス利用の中で、日々、人間による新たなデータを入手できる。
では、新たにAIを開発するベンチャーはどうすればよいのか?
その結果が、アンダーソン氏が冒頭のブログ投稿で言及している「AIベンチャーが学習データを求めてインターネット・アーカイブにアクセスを集中させた」事例だ。
インターネット・アーカイブは5月28日、膨大なアクセスが集中したため、2度にわたって1時間に及ぶサービス停止が発生した、と報告している。
同サイトは、そのアクセスがアマゾンのクラウドサービス「AWS」の64のバーチャルサーバーからのもので、毎秒1万回に上ったとしている。
インターネット・アーカイブは、サンフランシスコのNPOが運営する代表的なアーカイブサイトだ。1996年から活動を続けており、8,000億件を超すウェブサイトのアーカイブなど膨大なデータを保存している。
※参照:「インターネット・アーカイブ」代表、ブルースター・ケイル氏(43)に聞く(09/22/2004 asahi.com 平和博)
同サイトはこのアクセス集中が、「テキストデータを収集するAI企業によるもの」だと見立てている。
見立て通りなら、AIの学習データをめぐる争奪戦の一環、ということになる。
学習データをめぐる動きはほかにもある。
ソーシャルニュースサイト「レディット」CEOのスティーブ・ハフマン氏は4月、AIの学習データとしての同サイトの利用に対して、課金をする方針を表明している。
レディットは、AIの学習データの代表的な供給元の一つとして知られている。
※参照:チャットAIの「頭脳」をつくるデータの正体がわかった、プライバシーや著作権の行方は?(04/24/2023 新聞紙学的)
●崩壊せずに済む方法
生成AIが自家中毒を起こさず、崩壊しない方法について、アンダーソン氏らの論文は、生成AIによるデータの出所情報について、関係者間で共有できる仕組みを作り上げることを、提言している。
欧州連合(EU)が検討中の「AI規則(規制法)案」でも、生成AIによるコンテンツの透明化を義務付ける条項が盛り込まれている。
※参照:「AI規制法」は生成AIの7大リスクに対処できるか?(06/16/2023 新聞紙学的)
だが今のところ、AI生成コンテンツを大規模に、確実に識別できる仕組みはない。
一方で、米バズフィードは、2月にチャットGPTを使ったクイズコンテンツを公開。以後、旅行ガイド、レシピと矢継ぎ早にAI生成コンテンツを増やし続けている。
※参照:Buzzfeedが「チャットGPTメディア」への転換を急ぐ、切実な理由とは?(05/29/2023 新聞紙学的)
ネットメディアだけではない。
ロイター通信の6月17日付の記事によれば、傘下にUSAトゥデイなど200紙以上の日刊紙を擁する米国最大の新聞チェーン、ガネットも、記事の要約作成に生成AIを導入する方針を表明している。
また、2月19日付のフィナンシャル・タイムズの記事によれば、デイリー・ミラー、デイリー・エクスプレスなどを擁する英新聞チェーン、リーチも、交通情報や天気などの記事で、チャットGPTのような生成AIの導入を検討しているという。
●微妙なバランス
生成AIの社会への急速な浸透は、とどまるところを知らない。それによって、生成AIが生み出したコンテンツもネットにあふれ出し、「AIモデル崩壊」のリスクは現実味を帯びる。
人間とAIがつくり出す情報空間は、その微妙なバランスの上に成り立っている。
(※2023年6月23日付「新聞紙学的」より加筆・修正のうえ転載)