「ニュースを盗む」生成AIで検索最適化、それをブランド広告が支える仕組みとは?
主要メディアからニュース記事を収集し、生成AIでグーグル検索最適化のために書き換え、それをブランド広告が支える――。
米ウェブ評価サイト「ニュースガード」が、チャットGPTなどの生成AIでコンテンツを量産する「コンテンツファーム(工場)」の、最新の実態をまとめている。
「コンテンツファーム」は、ニューヨーク・タイムズなどのニュース記事を自動収集。生成AIを使って、検索エンジンで上位に表示されるように書き換えさせた上で、無断掲載していた。
盗用記事には主要ブランドの広告が掲載され、それらのサイトを支える仕組みになっている。
また生成AIで書き換えた盗用記事は、盗用チェックツールをすり抜けるケースも多いという。
生成AIが広げるメディア空間の闇が、ますます深くなっている。
●37件のウェブサイトの実態
ニュースガードは8月24日に公開した調査結果の中で、そんな実態を明らかにしている。
ニュースガードが調査の手がかりにしているのは、コンテンツに含まれる「AI言語モデルとして……」などの生成AI特有のエラーメッセージだ。ユーザーの指示文(プロンプト)の内容が、生成AIの使用ルールに抵触する場合などに表示される。
コンテンツファームはニュースサイトなどの体裁をとり、広告収入目的で不正コンテンツや低品質コンテンツを掲載する。それを、世界的な著名企業の広告料が支えているのだという。
※参照:1週間で記事8,600本、「AIコンテンツ工場」がネット広告費を飲み込む実態とは?(06/29/2023 新聞紙学的)
ニュースガードが今回明らかにした37件のコンテンツファームの特徴は、主要メディアからのニュース記事の盗用と、グーグル検索で上位に表示させる「検索エンジン最適化(SEO)」のための、生成AIを使った記事の書き換えだ。
●「グーグルフレンドリーな記事になるよう」
過去6年で4万件を超す「ニュース、分析、オピニオン」を掲載してきたというパキスタンのサイト「グローバル・ビレッジ・スペース」のコンテンツの末尾には、そんな一文が表示されていた。
ニュースガードの調査によると、これはニューヨーク・タイムズが2023年5月7日付で、アメリカンフットボール、ニューヨーク・ジャイアンツのタイトエンドで、ジャズピアニストのファッツ・ウォーラーのひ孫に当たるダレン・ウォーラー選手の音楽活動を取り上げた記事の盗用とみられる。
ニュースガードによると、「グローバル・ビレッジ・スペース」は過去半年で同じようなエラーメッセージを含んだコンテンツを17件掲載していたという。
生成AIを使い、ターゲットとする主要メディアのニュース記事を自動収集させ、さらに「検索エンジン最適化」のために書き換えさせる――。
ニュースガードの調査結果に対して、フェイクニュースやボットの実態に詳しいインディアナ大学教授のフィリッポ・メンツァー氏は、これらのサイトがプログラマーを雇い、一連の操作を自動化するプログラムを作成していると見立てている。
ニュースガードは、このようなエラーメッセージが露出しないようにチェックしているケースを含めると、同様のサイトは数百に上ると見ている。
●「人間の好みはわかりませんが」
「英国のニュースと政治」を掲げる「ローダン」というサイトのコンテンツには、こんなエラーメッセージも記載されていた。
ニュースガードによれば、これは2023年6月29日付の英フィナンシャル・タイムズの記事を盗用したものだという。
さらに韓国発とみられる「トップゴルフ」というサイトでは、米ワイアードの2023年5月20日付の記事を盗用の上、見出しの代替案を指示したとみられるエラーメッセージが、コンテンツの見出し部分に大きく表示されていた。
●ブランド広告が支える
例えば、英ガーディアンの記事を盗用したとみられる「リバプールダイジェスト」と称するサイトのコンテンツには、いくつもの大手ブランドの広告が掲載されていたという。
また、学術ニュースサイト「ザ・カンバセーション」の記事を盗用していた「ワッツニューストゥデイ」と称するサイトのコンテンツでも、「著名ソフトウェア会社、大手ストリーミングサービス、大手家電量販店、大手マットレス小売店、大手レンタカー会社、著名金融サービス会社」のプログラマティック広告が配信されていたという。
●盗用チェックの難しさ
ただ、生成AIを使った盗用のチェックは簡単ではないようだ。
ニュースガードが盗用チェックサイト「グラマリー」のツールを使って確認したところ、37件の盗用サイトに掲載されていた43件の書き換えコンテンツのうち、34件については盗用元を特定できなかった、という。
さらにこのうち10件について、グラマリーは盗用の可能性を「0%」と判定したという。
グラマリーの説明によれば、ネット上からそのままコピーしてくるケースはチェックできるが、「生成AIによるテキストは判別できない」という。
「検索エンジン最適化」のための生成AIによる書き換えが、盗用チェックツールの網の目をかいくぐるポイントになっているようだ。
広く知られる盗用チェックツールとしては、このほかに「ターンイットイン」がある。
筆者は、パキスタンのサイト「グローバル・ビレッジ・スペース」がニューヨーク・タイムズから盗用したというコンテンツを「ターンイットイン」でチェックしてみた。
すると、ネット上のコンテンツとの一致度は75%だった。
このうち一致度がもっとも高い68%だったサイトは、米フィラデルフィア・トリビューン。同紙が、ニューヨーク・タイムズから配信を受けて無料公開の記事として掲載していたものだった。
「ターンイットイン」にはAI生成の英文テキストの判定機能もあるが、この盗用コンテンツの判定は0%だった。
また、フィナンシャル・タイムズの記事の盗用コンテンツをチェックすると、ネット上のコンテンツとの一致度は29%、AI生成判定は3%だった。一致度がもっとも高い13%だったのは「アークハイド」と称するサイトのコンテンツだ。
ただ「アークハイド」のコンテンツは、フィナンシャル・タイムズのオリジナル記事を、書き換えもせずにほぼ丸ごと不正コピーしたものだった。
ニューヨーク・タイムズもフィナンシャル・タイムズも、課金の壁があり、ログインしなければ記事全文にはアクセスできない。
盗用改変サイトは、そもそものオリジナル記事を直接コピーするのではなく、主要メディアの配信先が無料ページとして公開している記事や、別の盗用サイトによる不正コピーを自動収集し、「検索エンジン最適化」の書き換えをしている可能性もある。
●自動収集を拒否するメディア
主要メディアは、不正サイトの盗用改変の問題とともに、生成AIの「学習データ」問題を抱える。
自社の著作物であるニュース記事が自動収集され、チャットGPTなどの生成AIの「学習データ」として無断で利用されることに、懸念が高まっている。
そんな中で、自社サイトの設定を変更し、AI企業によるコンテンツの自動収集を拒否するメディアが増えている。
AI生成コンテンツのチェックサービスを提供する「オリジナリティ.ai」が、2023年8月29日に更新した調査結果によると、世界の上位1,000サイトのうち、チャットGPTの開発元、オープンAIによる自動収集ボット(GPTボット)を拒否しているのは12%で、1週間で3ポイント上昇した。
この他のボットを含めると、1,000サイトのうちの18.6%が、いずれかの自動収集ボットによるデータ収集を拒否しているという。
しかし、そのような自動収集拒否の設定を無視して、データ収集を行うこともできる。
盗用改変サイトなどの不正サイトへの、確かな歯止めにはならなそうだ。
●ネットの生態系はより複雑に
生成AIの登場によって、低品質コンテンツの氾濫が注目を集めるようになった。
だが、検索サイトで上位に表示され、アクセスを集めるためには、コンテンツの品質が必要になる。
そこで、高品質のニュースメディアからのコンテンツ盗用と、生成AIによる「検索エンジン最適化」という手法が広がっているようだ。
ネットの暗部の生態系はより複雑化する。しかも、闇は深まる一方だ。
(※2023年9月4日付「新聞紙学的」より加筆・修正のうえ転載)