1週間で記事8,600本、「AIコンテンツ工場」がネット広告費を飲み込む実態とは?
1週間で記事8,600本、「AIコンテンツ工場」がネット広告費を飲み込む――。
ウェブ評価サイト「ニュースガード」が6月26日に公表した調査報告で、生成AIをつかって自動生成した低品質のウェブサイト「コンテンツファーム(工場)」が急増し、世界的企業などの広告費を飲み込んでいる実態を明らかにした。
チャットGPTなどの生成AIは、人間と見分けのつかない自然な文章を量産できる。その機能を使って、メディアを偽装したサイトを立ち上げ、フェイクニュースや低品質な自動生成コンテンツを次々に掲載し、広告収入を獲得しているという。
そこには、主な企業だけでも日本を含む141社に上る広告が掲載されていたという。
さらに広告の9割以上が、グーグルによる「プログラマティック広告」で配信されていたとしている。
生成AIによる「コンテンツファーム」が蝕む、ネット広告の生態系とは?
●主要企業141社の広告を掲載
ニュースガードが6月26日に公表した調査報告は、そんな実態を明らかにした。
ニュースガードは4月以来、AIを使ったコンテンツの自動生成をし、人間によるチェックをせず、AI生成を明示していないサイトを「信頼できないAI生成ニュース・情報サイト(Unreliable Artificial Intelligence-generated News and information websites, UAIN)」と呼び、継続的に実態を追跡してきた。
手がかりは、チャットGPTなどの生成AIが、指示文(プロンプト)に応えられない場合の、「私はAI言語モデルとして、~できません」といった特徴的なエラーメッセージだ。
これらが見出しや本文中に紛れ込んでいることで、生成AIによる自動生成コンテンツとわかる。
ニュースガードが特定した件数は、4月には49サイトだったが、5月に入ってからの2週間で125サイトに急増し、さらに今回の調査では217サイトにまで膨張。6月27日現在では277サイトになっている。
今回の調査では、これらのAI生成サイトに掲載された「プログラマティック広告」に着目している。プログラマティック広告は、広告枠の入札をリアルタイムで自動的に行い、表示する仕組みを指す。
調査によると、年間売上高5億ドル(約720億円)以上の企業だけでも、141社の393の広告が確認できたという。
ニュースガードは個別の企業名を明らかにしていないものの、こう述べている。
テクノロジーメディア、MITテクノロジーレビューの6月26日付の記事によると、この中にはシティグループやスバルも含まれているという。
ニュースガードが取り上げたサイトを筆者も確認してみたところ、ドイツに本社がある世界的医薬品メーカーの日本法人や米サンフランシスコに本社があるオンラインフードデリバリーサービスの日本法人、静岡県に本社がある通信添削会社などの日本語広告の表示が確認できた(*6月28日16時現在)。
これらの企業によるネット広告費は、AIの自動生成サイトに飲み込まれていることになる。
393のプログラマティック広告のうち356、すなわち90%がグーグル広告によって配信されていたという。
グーグルは利用規約で、「スパム的自動生成コンテンツ」のページへの広告配置を禁じている。
テクノロジーメディア、ヴァージの6月26日付の記事によると、グーグルは該当するサイトの広告削除などの対応を行ったという。
上記の日本語広告はヴァージの記事掲載後に確認したが、いずれもグーグルが配信したものだった。
全米広告主協会(ANA)が6月19日に発表した調査によると、プログラマティック広告のグローバル市場は880億ドル(約12兆7,000億円)に上る。
だが広告のインプレッション(表示回数)のうち、広告掲載のみを目的としたサイト(Made-for-advertising, MFA)が全体の21%を占めているという。
●メディアからのコピー&ペースト
生成AIは大量のコンテンツを、延々と自動生成し続けることができる。
ニュースガードの今回の調査では、ニュースサイトを擬した「ワールド・トゥデイ・ニュース(World-Today-News.com)」というサイトでは、6月9日から15日までの1週間で、約8,600件、1日平均で約1,200件もの記事を公開していたという。
ニューヨーク・タイムズは1日約150件のオリジナル記事を公開しているといい、その8倍ほどになる。
このほかにも、「アラスカ・コモンズ(AlaskaCommons.com)」というサイトでは、同じ期間に5,867件の記事を公開していた。
さらに同サイトの「イングリッド・テイラー」という署名では、6月15日だけで108本、2023年に入ってから合わせて4,364本の記事を作成していたという。
筆者が確認したところ、この署名の記事は5,631本(*6月29日午前5時40分現在)、6月27日だけで109本の記事を作成していた。
単純計算で、1時間あたり4.5本の記事を生成していることになる。
ヴァージによると、「ワールド・トゥデイ・ニュース」ではニューヨーク・タイムズの記事の盗用、すなわちコピー&ペーストが確認されたという。
またニュースガードによれば、「アラスカ・コモンズ」では、完全な盗用ではないものの、英タブロイド、サンと同じ写真、同じ表現を使った、「改変版」が確認されたという。
筆者が「ワールド・トゥデイ・ニュース」を確認したところ、東京新聞が4月3日に公開した記事「ウォールストリート・ジャーナル記者拘束問題 米ロ外相が電話協議も物別れに」の全文を英訳したものがあった。
コンテンツファームの自動生成コンテンツには、事実と異なるフェイクニュースも含まれる。
ニュースガードが5月1日に発表した調査では、「バイデン大統領死亡」のフェイクニュースも確認されたという。
●ネットの劣化と「汚染」
ニュースガードは、生成AIによるコンテンツファームが、確認できているものよりも「はるかに多い」と見ている。
把握できているのは、生成AIの特徴的なエラーメッセージが見出しや本文にある場合だけだからだ。
このようなサイトの増殖は何を生み出すのか。
一つは、広告主によるネット広告費がこれらの低品質もしくはフェイクサイトに流れ込み、資金源となって支えることになり、広告主にとってはブランド毀損につながるという問題だ。
ニュースガードはこう指摘している。
さらに、ネットの情報空間の劣化にもつながる。
生成AIによるコンテンツの劣化コピーの氾濫を、SF作家のテッド・チャン氏は、「ぼやけたJPEG」と呼んだ。
コンテンツファームの広がりは、生成AIにとっては「データ汚染」となる。
ケンブリッジ大学、オックスフォード大学、インペリアル・カレッジ・ロンドン、トロント大学の研究チームは、生成AIによるコンテンツを生成AIが学習し続けると、「AIモデル崩壊」を引き起こす、との論文を公開している。
※参照:生成AIによる「データ汚染」で生成AIが崩壊する、それを防ぐには?(06/23/2023 新聞紙学的)
生成AIの急速な拡大は、ネットの劣化と「汚染」もまた、加速度的に推し進めている。
(※2023年6月29日付「新聞紙学的」より加筆・修正のうえ転載)