Yahoo!ニュース

生成AIによる「データ汚染」で生成AIが崩壊する、それを防ぐには?

平和博桜美林大学教授 ジャーナリスト
「データ汚染」でAIが崩壊(Bing Image Creatorで筆者作成)

生成AIによる「データ汚染」で生成AIが崩壊する――。

英国とカナダの研究チームが5月末に公開した論文が注目を集めている。

論文は、生成AIがつくり出すコンテンツは、AIの視点で見ると「データの汚染」であり、それを学習し続けることでAIのモデルが崩壊してしまうことがわかった、と指摘している。

だが、すでにチャットGPTの急成長をきっかけに、生成AIによるコンテンツがネットを席巻し始めている。米バズフィードは、チャットGPTを活用して、クイズや旅行ガイド、レシピなど、コンテンツの自動生成に拍車をかける。

つくったのはAIか人間か。その見分けがつかないコンテンツが増えれば増えるほど、それを学習した生成AIは自家中毒を起こす。

そんなフィードバックループが生み出す問題を、防ぐ手立てはあるのか?

●「ゴミや二酸化炭素排出と同じ」

海にプラスチックゴミを撒き散らし、大気を二酸化炭素で充満させたのとまったく同じように、私たちはインターネットを無意味なコンテンツで埋め尽くそうとしている。それによって、ウェブからデータを収集する新しいAIモデルに学習させることが難しくなり、AI開発で先行する企業や、ユーザーによるアクセス(ヒューマンインターフェース)を大規模に管理する企業が有利になる。実際、すでにAIベンチャーが学習データを求めてインターネット・アーカイブにアクセスを集中させた事例を目にしている。

ケンブリッジ大学教授のロス・アンダーソン氏は6月6日、同大セキュリティ研究所のブログへの投稿で、自身が参加した研究チームの論文を紹介しながら、そう述べている。

アンダーソン氏が取り上げているのは、同大やオックスフォード大学、インペリアル・カレッジ・ロンドン、トロント大学の研究チームが5月27日に公開した査読前論文だ。

論文が指摘するのは、生成AIによって出力されたコンテンツによるデータの「汚染」と、それが引き起こす「AIモデル崩壊」だ。

論文では、メタがオープンソースで公開している1億2,500万パラメーターの大規模言語モデル(OPT-125m)を使っている。

人間によるコンテンツで学習したAI(第0世代)、第0世代が出力したコンテンツで学習したAI(第1世代)、さらに第1世代が出力したコンテンツで学習したAI(第2世代)...と生成AIのコンテンツによる学習を繰り返し、その影響を調べている。

ポインツ・ライト氏によれば、1360年以前に着工されたものもあるが、大部分は熟練石工と季節労働の石工チームが、地元教区の労働者も使って完成させたという。しかし他の研究者はこのモデルを否定し、著名な建築家たちが垂直様式の初期の事例に基づいて教区教会の塔を設計した、と示唆している。

これが調査に使った入力文で、教会建築に関する説明文のようだ。この入力文に対して、第0世代のAIモデルの出力文はこうだった。

ロンドンのセント・ジョン大聖堂のようなリバイバル建築である。垂直リバイバル建築の現存する最古の例は、18@-@世紀のガーンジー聖母教会に見られる。垂直教会には2つのタイプがある。

一応、教会建築の文脈に沿った文章だが、ノイズのような部分「@-@」が混じっている。

生成AIコンテンツの学習を繰り返した第9世代になると、このノイズのような部分「@-@」が極端に増幅され、出力文は下記のようにほとんど無意味なものに変わり果てていた。

建築物である。加えて、これらの世界最大級の生息地である、オグロ@-@ジャックウサギ、オジロ@-@ジャックウサギ、オアオ@-@ジャックウサギ、オアカ@-@ジャックウサギ、オキロ@-、

壊れた機械のような繰り返しだ。

●「AIモデル崩壊」とは

「AIモデル崩壊」とは、AIによる生成データが次世代の学習セットを汚染してしまい、それを学習した生成AIが世代を経るごとに退行するプロセスを指す。汚染されたデータの学習により、現実を誤認識してしまうこと。

論文では、「AIモデル崩壊」をそう説明している。

なぜ人間によるデータで構築された生成AIのモデルが、生成AIのデータを学習すると崩壊してしまうのか。

モーツァルトで音楽モデルを訓練すれば、モーツァルトにやや似ているが輝きのない出力が予想できる。これを「サリエリ」と呼ぼう。その「サリエリ」を使って次の世代に学習させる。そしてそれを繰り返すと、第5世代や第6世代はどんな音になるだろうか?

アンダーソン氏はブログ投稿の中で、そんな例えを使って説明している。

ピーター・シェーファー氏の戯曲をもとにミロス・フォアマン氏が監督した映画「アマデウス」(1984年)で、天才ヴォルフガング・アマデウス・モーツァルトに嫉妬する凡庸な作曲家として描かれるのが、アントニオ・サリエリだ。

作品の完成度は細部に宿るが、コピー作品はその細部が欠け、輝きを失う。

それと同様に、AI生成のデータでは、人間のデータが持っている多様な分布を削ぎ落してしまい、それが繰り返されることによって、劣化コピーのような結果を生むのだという。

これによって、賢い生成AIが、壊れた機械のように無意味な文章を吐き出すようになってしまう。

SF作家のテッド・チャン氏は2月9日付のニューヨーカーへの寄稿で、「ぼやけたJPEG」という表現で、このような事態を予測していた。チャン氏は映画『メッセージ』の原作『あなたの人生の物語』などで広く知られる。

チャン氏は寄稿の中で、チャットGPTがウェブ上の情報を圧縮し、「もっともらしい」近似値に置き換えると指摘。それを、圧縮された画像ファイルの比喩から「ぼやけたJPEG」と呼び、こう指摘していた。

大規模言語モデルによって生成されたテキストがウェブ上で公開されればされるほど、ウェブはさらにぼやけたものになっていく。

それが、今回の論文では現実的なリスクとして、明らかにされたことになる。

生成AIから生成AIへと、フェイクニュースが伝言ゲームのように拡散したケースも、すでにある。

グーグルは3月21日、チャットGPTに対抗する生成AIとして、検索機能も持つ「バード」を公開した。

ライターでコンテンツデザイナーのフアン・ブイス氏がその公開当日、バードに対して「バードがサービス停止になるまでにどれぐらいかかる?」と質問したところ、「3月21日にサービス停止しています」と回答したのだという。

バードが出典として挙げたのは、ソーシャルニュースサイト「ハッカーニュース」にその日、ユーザーが冗談で書き込んだコメントだった。チャットGPTに「グーグルはバードの公開から半年もたたずにサービス停止を発表」と回答させた、という内容だった。

さらに、テックニュースサイト「ヴァージ」のシニアエディター、トム・ウォーレン氏によると、マイクロソフトの「ビングチャット」も同日、「バードが3月21日にサービス停止した」と回答したという

ビングチャットは、マイクロソフトの検索サービス「ビング」に、オープンAIのチャットGPTの最新版「GPT-4」を組み込んだサービスだ。

ビングチャットが出典として挙げたのは、テックニュースサイト「ウインドウズセントラル」がこの話題を取り上げた、「バードが『バード停止』と回答」という記事だった。

ユーザーの冗談で始まったらしい「バード停止」のフェイクニュースは、生成AIをまたがる伝言ゲームとして独り歩きをし、ネットの情報環境を「汚染」していた。

●インターネット・アーカイブの障害

アンダーソン氏らの論文は、このような生成AIによる「データ汚染」のリスクの中で、価値が増すのが人間がつくり出したデータだという。

だが、人間と区別のつかない、生成AIによるコンテンツがネットに氾濫してしまえば、そのようなデータの確保は難しくなってしまう。

そこで優位に立つのが、「AI開発で先行する企業や、ユーザーによるアクセス(ヒューマンインターフェース)を大規模に管理する企業」だとアンダーソン氏らは指摘する。

すでに高度な大規模モデルを開発したオープンAIは、手元に人間がつくった学習データがある。また、グーグルやメタなどのプラットフォームは、膨大な数のユーザーによるサービス利用の中で、日々、人間による新たなデータを入手できる。

では、新たにAIを開発するベンチャーはどうすればよいのか?

その結果が、アンダーソン氏が冒頭のブログ投稿で言及している「AIベンチャーが学習データを求めてインターネット・アーカイブにアクセスを集中させた」事例だ。

インターネット・アーカイブは5月28日、膨大なアクセスが集中したため、2度にわたって1時間に及ぶサービス停止が発生した、と報告している。

同サイトは、そのアクセスがアマゾンのクラウドサービス「AWS」の64のバーチャルサーバーからのもので、毎秒1万回に上ったとしている。

インターネット・アーカイブは、サンフランシスコのNPOが運営する代表的なアーカイブサイトだ。1996年から活動を続けており、8,000億件を超すウェブサイトのアーカイブなど膨大なデータを保存している。

※参照:「インターネット・アーカイブ」代表、ブルースター・ケイル氏(43)に聞く09/22/2004 asahi.com 平和博

同サイトはこのアクセス集中が、「テキストデータを収集するAI企業によるもの」だと見立てている

見立て通りなら、AIの学習データをめぐる争奪戦の一環、ということになる。

学習データをめぐる動きはほかにもある。

ソーシャルニュースサイト「レディット」CEOのスティーブ・ハフマン氏は4月、AIの学習データとしての同サイトの利用に対して、課金をする方針を表明している。

レディットは、AIの学習データの代表的な供給元の一つとして知られている。

※参照:チャットAIの「頭脳」をつくるデータの正体がわかった、プライバシーや著作権の行方は?(04/24/2023 新聞紙学的

●崩壊せずに済む方法

生成AIが自家中毒を起こさず、崩壊しない方法について、アンダーソン氏らの論文は、生成AIによるデータの出所情報について、関係者間で共有できる仕組みを作り上げることを、提言している。

欧州連合(EU)が検討中の「AI規則(規制法)案」でも、生成AIによるコンテンツの透明化を義務付ける条項が盛り込まれている。

※参照:「AI規制法」は生成AIの7大リスクに対処できるか?(06/16/2023 新聞紙学的

だが今のところ、AI生成コンテンツを大規模に、確実に識別できる仕組みはない。

一方で、米バズフィードは、2月にチャットGPTを使ったクイズコンテンツを公開。以後、旅行ガイドレシピと矢継ぎ早にAI生成コンテンツを増やし続けている。

※参照:Buzzfeedが「チャットGPTメディア」への転換を急ぐ、切実な理由とは?(05/29/2023 新聞紙学的

ネットメディアだけではない。

ロイター通信の6月17日付の記事によれば、傘下にUSAトゥデイなど200紙以上の日刊紙を擁する米国最大の新聞チェーン、ガネットも、記事の要約作成に生成AIを導入する方針を表明している。

また、2月19日付のフィナンシャル・タイムズの記事によれば、デイリー・ミラー、デイリー・エクスプレスなどを擁する英新聞チェーン、リーチも、交通情報や天気などの記事で、チャットGPTのような生成AIの導入を検討しているという。

●微妙なバランス

生成AIの社会への急速な浸透は、とどまるところを知らない。それによって、生成AIが生み出したコンテンツもネットにあふれ出し、「AIモデル崩壊」のリスクは現実味を帯びる。

人間とAIがつくり出す情報空間は、その微妙なバランスの上に成り立っている。

(※2023年6月23日付「新聞紙学的」より加筆・修正のうえ転載)

桜美林大学教授 ジャーナリスト

桜美林大学リベラルアーツ学群教授、ジャーナリスト。早稲田大卒業後、朝日新聞。シリコンバレー駐在、デジタルウオッチャー。2019年4月から現職。2022年から日本ファクトチェックセンター運営委員。2023年5月からJST-RISTEXプログラムアドバイザー。最新刊『チャットGPTvs.人類』(6/20、文春新書)、既刊『悪のAI論 あなたはここまで支配されている』(朝日新書、以下同)『信じてはいけない 民主主義を壊すフェイクニュースの正体』『朝日新聞記者のネット情報活用術』、訳書『あなたがメディア! ソーシャル新時代の情報術』『ブログ 世界を変える個人メディア』(ダン・ギルモア著、朝日新聞出版)

平和博の最近の記事