Yahoo!ニュース

1日で300万アクセス「世界で最もつまらないコンテンツ工場」をオープンAIのボットが急襲する

平和博桜美林大学教授 ジャーナリスト
「コンテンツ工場」をボットが急襲 By Jeff (CC BY-ND 2.0)

1日で300万アクセス、「世界で最もつまらないコンテンツ工場」をオープンAIのボットが急襲してきた――。

500万部を超すインターネット入門書のベストセラーの著者が、そんなエピソードを明らかにしている。

チャットGPTなどの生成AIの開発には、膨大な学習データが必要だ。

チャットGPTの開発元であるオープンAIのボット(自動収集プログラム)が、その学習データ取得のため、実験用に開設している無意味な「コンテンツ工場」サイトに、1秒間に150回ものアクセスを繰り返していたのだという。

一方で、チャットGPTなどの生成AIは、「コンテンツ工場」のような低品質サイトを自動生成するツールとしても使われ、制作の低コスト化、スピード化を進めている。

ウェブ評価サイト「ニュースガード」の編集者は、「コンテンツ工場」の一種、ローカルメディアを偽装する「ピンクスライム」サイトをわずか2日間、費用105ドルで開設することができた、と報告している。

そして「コンテンツ工場」「ピンクスライム」は、多額の広告収益も飲み込んでいく。

情報空間の汚染の広がりが、加速している。

●「GPT-5は何を学習しているのか」

私は世界で最もつまらないコンテンツ工場 https://www.web.sp.am/ を持っている。リンクを1つか2つクリックすれば、その意味がわかるだろう。残念ながら、このサイトがGPTボットに見つかってしまったのだが、その意味が理解できなかったようだ。GPTボットは今日、300万ページ以上を読み込んでいった。

迷惑メール(スパム)対策の専門家、ジョン・リーバイン氏は4月10日、インターネット管理者グループ「北米ネットワークオペレーターズグループ(NANOG)」のメーリングリストに、そんな書き込みをした。ネットメディア「404メディア」が紹介している。

リーバイン氏は、500万部以上を売り上げたインターネット入門書『インターネットFORダミーズ』の著者として知られ、インターネット管理の国際機関「インターネット協会」理事なども務めた経歴を持つ。

そのリーバイン氏が「世界で最もつまらないコンテンツ工場」と呼ぶのは、「Wwwのすべて」と名付けたサイト群だ。

サイトは1ページのみで、9つの人名へのリンクと、自著のアマゾンへのリンク付きの画像、さらにシリコン製の卵の画像(やはりアマゾンへのリンク付き)が掲載されているだけだ。

人名は自動生成されており、人名のリンクをクリックすると、その人名をドメイン名(アドレス)とサイト名に冠した、まったく同じデザインの1ページだけの別サイトに飛ぶ。

それが延々と繰り返される。ただそれだけの無意味な1ページサイト群が、68億5,900万件あるという。

リーバイン氏は、人間がアクセスすることはほとんどないこのサイト群を、検索エンジンなどの自動収集プログラム(クローラー)の観測に使っているという。

その「コンテンツ工場」のサイト群に、チャットGPTの開発元、オープンAIの自動収集プログラム「GPTボット」がアクセスしてきたのだという。しかも1秒間に150回というペースで1日300万回も。

そのうち180万回は、そのような自動プログラム「ボット」を拒否するために設定するファイル「robots.txt」を読み込んでいたという。

生成AIの開発には、膨大なデータが必要とされ、開発元はその学習用として、インターネット上の情報を自動収集している。

※参照:チャットAIの「頭脳」をつくるデータの正体がわかった、プライバシーや著作権の行方は?(04/24/2023 新聞紙学的

そして、著作権のある高品質な情報の無断利用を巡っては、相次いで訴訟も起きている。

※参照:「生成AIでニュースにタダ乗り」相次ぐメディア訴訟と罰金410億円、その適正な対価とは?(03/25/2024 新聞紙学的

だがリーバイン氏の事例からは、情報として価値のない「コンテンツ工場」サイトも、無差別、大量に読み込んで学習していることがうかがえる。

チャットGPTの次世代モデル「GPT-5」の公開も近いのでは、との憶測も流れる。リーバイン氏は追伸として、こう述べている。

GPT-5が学習に何を使っているのか気になっていたのなら、これでわかっただろう。

リーバイン氏の投稿の後、「GPTボット」のアクセスは止まったという。

●2日間、1.6万円で外注

「コンテンツ工場」は、検索エンジンでの上位表示を狙って低品質のコンテンツを大量に集め、広告収入を獲得していくサイトとして、10年以上前から問題視されてきた。

チャットGPTなどの生成AIの普及で、その参入のハードルは劇的に下がった。

私は2日間と105ドル(約1万6,000円)で、何の専門知識もなしに、完全に自動化され、1日に何千もの記事を掲載できるAI生成のローカルニュースサイトを立ち上げることができた。

ウェブ評価サイト「ニュースガード」の編集者、ジャック・ブルースター氏は、4月12日付のウォールストリート・ジャーナルへの寄稿で、そう述べている。

ブルースター氏が立ち上げたのは、「コンテンツ工場」の中でも、ローカルニュースサイトを偽装した政治色の強い「ピンクスライム」と呼ばれるサイトだ。

11月に米大統領選とあわせて行われる上院選に向け、オハイオ州の共和党候補を支援する内容の「ピンクスライム」を立ち上げたという。

ブルースター氏はこれまでにも「ニュースガード」で、「ピンクスライム」の実態を調査し、その数が地盤沈下が進む実際のローカルニュースサイトと同レベルになっていることを明らかにしている。

※参照:AIで量産のメディア偽装サイト「ピンクスライム」の数が、本物のニュースサイトと同規模に(04/05/2024 新聞紙学的

クラウドソーシングサイトを使って、制作はパキスタンのエンジニアに発注。制作費80ドルに、ドメイン名とホスティング費用が25ドル、計105ドルのコストで完成したという。「ウーバーイーツの注文ぐらい簡単」とブルースター氏は述べている。

コンテンツは、メディアサイトから流用したものをチャットGPTでリライト(書き換え)しているのだという。だがその中には、事実に基づかない間違った内容も含まれていた、とブルースター氏。

さらに、追加の発注でグーグルの広告ネットワークの導入まで設定してもらえるという。

このサイト立ち上げは、あくまで検証用で、一般には公開していないとしている。

ブルースター氏が発注したパキスタンのエンジニアは、500超の同種のサイトを作成した実績があるという。

米ワイアードは2月7日付の記事で、このような生成AIによる「コンテンツ工場」に、サイバースクワッティング(ドメイン名の占拠)を組み合わせた事例を紹介している。

メディアサイトの閉鎖にともなって放棄されたドメイン名を買い取り、そのサイトが築いてきたブランドと検索エンジンのランキングを「コンテンツ工場」に流用し、サイト自体はAI生成コンテンツで埋めていくのだという。

●ゾンビが広告費を奪っていく

「コンテンツ工場」「ピンクスライム」サイトには、低品質コンテンツや偽情報・誤情報の拡散による情報空間の汚染という大きな問題点がある。

それに加えて、ビジネス面での深刻な課題は、これらのサイト群が大量の広告を奪い取っていくことだ。

※参照:1週間で記事8,600本、「AIコンテンツ工場」がネット広告費を飲み込む実態とは?(06/29/2023 新聞紙学的

全米広告主協会(ANA)が2023年6月に公表した調査結果では、「コンテンツ工場」のような、低品質で広告収益獲得を主目的に開設されたサイト(広告目的サイト、MFA)は、自動配信システムで広告が掲載される「プログラマティック広告」のインプレッション(表示数)の21%、広告支出の15%を占めるとしている。

メディアにとっても、広告主企業にとっても、それだけの規模の広告費が、AIでつくり出されたゾンビのようなサイトに飲み込まれていることになる。

AIの進化は、インターネットの暗部の広がりも加速させている。

(※2024年4月15日付「新聞紙学的」より加筆・修正のうえ転載)

桜美林大学教授 ジャーナリスト

桜美林大学リベラルアーツ学群教授、ジャーナリスト。早稲田大卒業後、朝日新聞。シリコンバレー駐在、デジタルウオッチャー。2019年4月から現職。2022年から日本ファクトチェックセンター運営委員。2023年5月からJST-RISTEXプログラムアドバイザー。最新刊『チャットGPTvs.人類』(6/20、文春新書)、既刊『悪のAI論 あなたはここまで支配されている』(朝日新書、以下同)『信じてはいけない 民主主義を壊すフェイクニュースの正体』『朝日新聞記者のネット情報活用術』、訳書『あなたがメディア! ソーシャル新時代の情報術』『ブログ 世界を変える個人メディア』(ダン・ギルモア著、朝日新聞出版)

平和博の最近の記事