Yahoo!ニュース

「ニュースを盗む」生成AIで検索最適化、それをブランド広告が支える仕組みとは?

平和博桜美林大学教授 ジャーナリスト
生成AIでニュースを盗む(Bing Image Creatorで筆者作成)

主要メディアからニュース記事を収集し、生成AIでグーグル検索最適化のために書き換え、それをブランド広告が支える――。

米ウェブ評価サイト「ニュースガード」が、チャットGPTなどの生成AIでコンテンツを量産する「コンテンツファーム(工場)」の、最新の実態をまとめている。

「コンテンツファーム」は、ニューヨーク・タイムズなどのニュース記事を自動収集。生成AIを使って、検索エンジンで上位に表示されるように書き換えさせた上で、無断掲載していた。

盗用記事には主要ブランドの広告が掲載され、それらのサイトを支える仕組みになっている。

また生成AIで書き換えた盗用記事は、盗用チェックツールをすり抜けるケースも多いという。

生成AIが広げるメディア空間の闇が、ますます深くなっている。

●37件のウェブサイトの実態

ニュースガードは2023年8月、CNN、ニューヨーク・タイムズ、ロイターなどの報道機関で初出のニュース記事を、チャットボット(生成AI)で書き換えている37件のウェブサイトを特定した。すべてのケースで、記事はほぼ確実にオリジナルのニュースメディアから収集されているが、そのメディアのクレジットは一切表示されていなかった。37件のサイトの中には、完全に自動化され、人間のチェックがまったく行われていないものもあった。

ニュースガードは8月24日に公開した調査結果の中で、そんな実態を明らかにしている。

さらに、これらのコンテンツファームの中には、有名企業のプログラマティック広告が掲載されているものもあった。AIを使って主要メディアのコンテンツを不正コピーする行為を、優良ブランドが知らぬ間に資金援助していることになる。

ニュースガードが調査の手がかりにしているのは、コンテンツに含まれる「AI言語モデルとして……」などの生成AI特有のエラーメッセージだ。ユーザーの指示文(プロンプト)の内容が、生成AIの使用ルールに抵触する場合などに表示される。

コンテンツファームはニュースサイトなどの体裁をとり、広告収入目的で不正コンテンツや低品質コンテンツを掲載する。それを、世界的な著名企業の広告料が支えているのだという。

※参照:1週間で記事8,600本、「AIコンテンツ工場」がネット広告費を飲み込む実態とは?(06/29/2023 新聞紙学的

ニュースガードが今回明らかにした37件のコンテンツファームの特徴は、主要メディアからのニュース記事の盗用と、グーグル検索で上位に表示させる「検索エンジン最適化(SEO)」のための、生成AIを使った記事の書き換えだ。

●「グーグルフレンドリーな記事になるよう」

AI言語モデルとして、私が執筆していない記事の正確性は保証できません。しかし、グーグルフレンドリーな記事になるよう、最善を尽くして書き換えました。

過去6年で4万件を超す「ニュース、分析、オピニオン」を掲載してきたというパキスタンのサイト「グローバル・ビレッジ・スペース」のコンテンツの末尾には、そんな一文が表示されていた。

ニュースガードの調査によると、これはニューヨーク・タイムズが2023年5月7日付で、アメリカンフットボール、ニューヨーク・ジャイアンツのタイトエンドで、ジャズピアニストのファッツ・ウォーラーのひ孫に当たるダレン・ウォーラー選手の音楽活動を取り上げた記事の盗用とみられる。

ニュースガードによると、「グローバル・ビレッジ・スペース」は過去半年で同じようなエラーメッセージを含んだコンテンツを17件掲載していたという。

生成AIを使い、ターゲットとする主要メディアのニュース記事を自動収集させ、さらに「検索エンジン最適化」のために書き換えさせる――。

ニュースガードの調査結果に対して、フェイクニュースやボットの実態に詳しいインディアナ大学教授のフィリッポ・メンツァー氏は、これらのサイトがプログラマーを雇い、一連の操作を自動化するプログラムを作成していると見立てている。

ニュースガードは、このようなエラーメッセージが露出しないようにチェックしているケースを含めると、同様のサイトは数百に上ると見ている。

●「人間の好みはわかりませんが」

提供されたコンテンツは、フィナンシャル・タイムズの著作物であることに注意してください。AI言語モデルとして、私は著作権で保護されたコンテンツを書き換えたり、複製したりすることはできません。著作権で保護されていないテキストや特定の質問があれば、遠慮なくお尋ねください。喜んでお手伝いします。

「英国のニュースと政治」を掲げる「ローダン」というサイトのコンテンツには、こんなエラーメッセージも記載されていた。

ニュースガードによれば、これは2023年6月29日付の英フィナンシャル・タイムズの記事を盗用したものだという。

さらに韓国発とみられる「トップゴルフ」というサイトでは、米ワイアードの2023年5月20日付の記事を盗用の上、見出しの代替案を指示したとみられるエラーメッセージが、コンテンツの見出し部分に大きく表示されていた。

AIの言語モデルとして、人間の読者の好みについてはわかりませんが、見出しの代替案をいくつか紹介します。

●ブランド広告が支える

ニュースガードは、特定した37件の盗用サイトのうち15件で、優良企業55社を含む大手ブランドのプログラマティック広告を発見した。広告はすべて、書き換えられたAIコンテンツを含む記事に配信されていた。

例えば、英ガーディアンの記事を盗用したとみられる「リバプールダイジェスト」と称するサイトのコンテンツには、いくつもの大手ブランドの広告が掲載されていたという。

この盗用記事で宣伝されたブランドには、大手金融サービス会社2社、事務用品会社、航空会社、数十億ドル規模のソフトウェア会社、トップ家電小売業者、全国ホテルチェーン、大手銀行、大手マットレス小売業者などが含まれていた。

また、学術ニュースサイト「ザ・カンバセーション」の記事を盗用していた「ワッツニューストゥデイ」と称するサイトのコンテンツでも、「著名ソフトウェア会社、大手ストリーミングサービス、大手家電量販店、大手マットレス小売店、大手レンタカー会社、著名金融サービス会社」のプログラマティック広告が配信されていたという。

●盗用チェックの難しさ

ただ、生成AIを使った盗用のチェックは簡単ではないようだ。

ニュースガードが盗用チェックサイト「グラマリー」のツールを使って確認したところ、37件の盗用サイトに掲載されていた43件の書き換えコンテンツのうち、34件については盗用元を特定できなかった、という。

さらにこのうち10件について、グラマリーは盗用の可能性を「0%」と判定したという。

グラマリーの説明によれば、ネット上からそのままコピーしてくるケースはチェックできるが、「生成AIによるテキストは判別できない」という。

「検索エンジン最適化」のための生成AIによる書き換えが、盗用チェックツールの網の目をかいくぐるポイントになっているようだ。

広く知られる盗用チェックツールとしては、このほかに「ターンイットイン」がある。

筆者は、パキスタンのサイト「グローバル・ビレッジ・スペース」がニューヨーク・タイムズから盗用したというコンテンツを「ターンイットイン」でチェックしてみた。

すると、ネット上のコンテンツとの一致度は75%だった。

このうち一致度がもっとも高い68%だったサイトは、米フィラデルフィア・トリビューン。同紙が、ニューヨーク・タイムズから配信を受けて無料公開の記事として掲載していたものだった。

「ターンイットイン」にはAI生成の英文テキストの判定機能もあるが、この盗用コンテンツの判定は0%だった。

また、フィナンシャル・タイムズの記事の盗用コンテンツをチェックすると、ネット上のコンテンツとの一致度は29%、AI生成判定は3%だった。一致度がもっとも高い13%だったのは「アークハイド」と称するサイトのコンテンツだ。

ただ「アークハイド」のコンテンツは、フィナンシャル・タイムズのオリジナル記事を、書き換えもせずにほぼ丸ごと不正コピーしたものだった。

ニューヨーク・タイムズもフィナンシャル・タイムズも、課金の壁があり、ログインしなければ記事全文にはアクセスできない。

盗用改変サイトは、そもそものオリジナル記事を直接コピーするのではなく、主要メディアの配信先が無料ページとして公開している記事や、別の盗用サイトによる不正コピーを自動収集し、「検索エンジン最適化」の書き換えをしている可能性もある。

●自動収集を拒否するメディア

主要メディアは、不正サイトの盗用改変の問題とともに、生成AIの「学習データ」問題を抱える。

自社の著作物であるニュース記事が自動収集され、チャットGPTなどの生成AIの「学習データ」として無断で利用されることに、懸念が高まっている。

そんな中で、自社サイトの設定を変更し、AI企業によるコンテンツの自動収集を拒否するメディアが増えている。

AI生成コンテンツのチェックサービスを提供する「オリジナリティ.ai」が、2023年8月29日に更新した調査結果によると、世界の上位1,000サイトのうち、チャットGPTの開発元、オープンAIによる自動収集ボット(GPTボット)を拒否しているのは12%で、1週間で3ポイント上昇した。

この他のボットを含めると、1,000サイトのうちの18.6%が、いずれかの自動収集ボットによるデータ収集を拒否しているという。

しかし、そのような自動収集拒否の設定を無視して、データ収集を行うこともできる。

盗用改変サイトなどの不正サイトへの、確かな歯止めにはならなそうだ。

●ネットの生態系はより複雑に

生成AIの登場によって、低品質コンテンツの氾濫が注目を集めるようになった。

だが、検索サイトで上位に表示され、アクセスを集めるためには、コンテンツの品質が必要になる。

そこで、高品質のニュースメディアからのコンテンツ盗用と、生成AIによる「検索エンジン最適化」という手法が広がっているようだ。

ネットの暗部の生態系はより複雑化する。しかも、闇は深まる一方だ。

(※2023年9月4日付「新聞紙学的」より加筆・修正のうえ転載)

桜美林大学教授 ジャーナリスト

桜美林大学リベラルアーツ学群教授、ジャーナリスト。早稲田大卒業後、朝日新聞。シリコンバレー駐在、デジタルウオッチャー。2019年4月から現職。2022年から日本ファクトチェックセンター運営委員。2023年5月からJST-RISTEXプログラムアドバイザー。最新刊『チャットGPTvs.人類』(6/20、文春新書)、既刊『悪のAI論 あなたはここまで支配されている』(朝日新書、以下同)『信じてはいけない 民主主義を壊すフェイクニュースの正体』『朝日新聞記者のネット情報活用術』、訳書『あなたがメディア! ソーシャル新時代の情報術』『ブログ 世界を変える個人メディア』(ダン・ギルモア著、朝日新聞出版)

平和博の最近の記事