Yahoo!ニュース

「生成AIでニュースにタダ乗り」相次ぐメディア訴訟と罰金410億円、その適正な対価とは?

平和博桜美林大学教授 ジャーナリスト
生成AIがニュースを飲み込み、作り出す(DALL-Eで筆者作成)

生成AIによるニュースの無断利用が、相次ぐメディア訴訟と410億円という巨額の罰金で、改めて注目を集めている。

「インターセプト」などの米オンラインメディアは2月末に相次いでオープンAIとマイクロソフトを提訴した。ニューヨーク・タイムズによる同様の訴訟に続き、「生成AIによるニュースのタダ乗り」が論点になっている。

フランスでは、規制当局の競争委員会が3月20日、グーグルがニュース使用料についてメディアと「誠意ある交渉」を行わず、生成AIでニュースを無断利用していた、などとして、2億5,000万ユーロ(約410億円)という巨額の罰金を科した。

生成AIとニュースの、行き着く先とは?

●「模倣に過ぎない」

チャットGPTは回答する際、全知全能の“インテリジェント”な情報源であるかのような印象を与えるが、実際は、その回答は著作権で保護されたジャーナリズムのコンテンツに基づいており、チャットGPTは単にそれを模倣しているに過ぎない。

数々の調査報道で知られる非営利の米オンラインニュースメディア「インターセプト」は、オープンAIとマイクロソフトを相手取り、2月28日付でニューヨーク南部地区連邦地裁に起こした裁判の訴状の中で、そう指摘している。

米オンラインニュースメディアの「ローストーリー」「オルターネット」も同日付で同地裁に同じ訴訟を起こしている

チャットGPTはしばしば、著作権で保護されたジャーナリズムのコンテンツから相当量の模倣をした回答を、作者、タイトル、著作権、利用規約などの情報を一切示すことなく、ユーザーに提供してきた。例えば、ユーザーがチャットGPTに時事問題や調査報道の結果について質問すると、チャットGPTは、被告企業のジャーナリズム活動に基づく回答ではなく、それらの出来事を取り上げた著作権保護されたジャーナリズムのコンテンツを模倣した回答を示す。

「インターセプト」など3メディアは、これらのチャットGPTの振る舞いが、デジタルコンテンツの著作権保護を定めたデジタルミレニアム著作権法(DMCA)違反に当たる、と主張している。

訴状は、AI生成コンテンツの検知サービスを提供する「コピーリークス」が2月22日に発表したチャットGPTの大規模言語モデル(LLM)、GPT-3.5に関する調査結果を引用している。

調査ではGPT-3.5に物理学から経済学、スポーツまでの26分野、1,045件のテキストの出力を指示したところ、59.7%で盗用を含むテキストが含まれ、45.7%で同一のテキストがあった、と指摘。「これは、GPT-3.5が"真新しい"テキストを製造しているわけではないことを示している」と述べる。

同様の指摘は、他の調査でも示されている。

元メタのAI研究者らが設立した「パトロナスAI」は3月6日、代表的な大規模言語モデルを対象に、著作権で保護されたコンテンツを生成する割合を比較した調査結果を発表した。

それによると、著作権保護コンテンツの生成割合が最も高かったのは、オープンAIのGPT-4で44%。次いでフランスのミストラルの22%、メタのラマ2の10%、アンスロピックのクロード2.1の8%だったという。

「インターセプト」などは、無断利用による損害賠償と、学習データなどからコンテンツを削除することを求めている。

●「タダ乗り」対「ハッキング」

「インターセプト」などの提訴の先例となったのが、ニューヨーク・タイムズだ。

マイクロソフトはビングチャット(最近「コパイロット」とブランド名を変更)、オープンAIはチャットGPTを通じて、ニューヨーク・タイムズのジャーナリズムへの巨額の投資を、代替製品を作るために、許諾も報酬もなしに利用することで、タダ乗りをしようとしている。

ニューヨーク・タイムズは2023年12月27日、やはりオープンAIとマイクロソフトを相手取って、ニューヨーク南部地区連邦地裁へ起こした著作権侵害訴訟で、そう主張している。

ニューヨーク・タイムズの場合は、米著作権局(USCO)に紙の新聞の著作権登録手続きを行っているため、デジタルミレニアム著作権法だけでなく、著作権法違反の訴えも行っている

ニューヨーク・タイムズは、生成AIの学習データの中でも、図抜けた存在感がある。

チャットGPTに先行するオープンAIのGPT-2の学習データにおけるランキングでは、ニューヨーク・タイムズは、グーグル、インターネット・アーカイブ、(グーグル傘下の)ブロガー、(マイクロソフト傘下の)ギットハブに次ぐ5位を占める。

また、グーグルが公開している大規模学習データ「C4」のウェブサイト別ランキングでは、グーグル・パテント(特許検索)、ウィキペディア、文書共有のスクリブドに次いで、ニューヨーク・タイムズは4位となっている。

トップ10には、ニューヨーク・タイムズを含め、ロサンゼルス・タイムズ(6位)、ガーディアン(7位)、フォーブス(8位)、ハフポスト(9位)とニュースメディア5サイトが並ぶ。

※参照:チャットAIの「頭脳」をつくるデータの正体がわかった、プライバシーや著作権の行方は?(04/24/2023 新聞紙学的

大量のデータが学習されているだけでなく、ほぼオリジナルと同じテキストが、チャットGPT(およびコパイロット)から生成されている、とニューヨーク・タイムズは指摘する。

ニューヨーク・タイムズは、その実例として裁判所に100件に上る検証結果を提出している。それによれば、ニューヨーク・タイムズの実際のニュースの冒頭部分を、プロンプト(生成指示文)としてGTP-4に入力すると、それに続くニュースのテキストが出力され、その文面はオリジナルとほぼ同一だったとしている。

オープンAIは、これが稀な「バグ」であると反論。さらに、「ニューヨーク・タイムズは誰かを雇い、オープンAIのプロダクトをハックした」と主張。ニューヨーク・タイムズはこれに対し、「虚偽で無意味な主張」と否定している。

●フランスでも「無断利用」指摘

本委員会は調査の過程で、グーグルがAIサービスの基盤モデルを学習させる際、またグラウンディング(ユーザーの質問に回答するために、AIサービスがグーグル検索に質問を送信すること)およびディスプレイ(ユーザーに回答を表示すること)の段階で、報道機関や出版社、当委員会のいずれにも通知することなく、報道機関や通信社のドメインのコンテンツを使用していることを発見した。

フランスの規制当局、競争委員会(ADLC)は3月20日、グーグルに2億5,000万ユーロ(約410億円)という巨額の罰金を科すとの発表の中で、こんな指摘をしている。

フランスでの紛争のもとになったのは、競争委員会と裁判所を舞台とした、ニュース利用の「タダ乗り」問題を巡るグーグルとメディアの、2019年以来の応酬だった。

※参照:罰金650億円でGoogleが学んだニュース使用料「誠意ある交渉」のやり方(06/23/2022 新聞紙学的

この紛争は2022年6月、グーグルが、競争委員会の罰金としては過去最高額の5億ユーロ(当時のレートで約650億円)を受け入れたことで、いったん決着したはずだった。

だが、競争委員会の今回の発表によれば、グーグルは2022年に示した「誠意ある交渉」などの7項目の履行義務のうち、4項目を遵守しなかったとして、さらに2億5,000万ユーロの罰金を科されることになったという

その調査の過程で、フランスでは2023年7月からサービスを開始したグーグルの生成AI「バード(現ジェミニ)」の学習データとして、国内メディアのコンテンツが無断利用されていることが明らかになったという。

さらにグーグルは同年9月末に「バード」による学習データ利用をオプトアウト(拒否)するためのツール「グーグル・エクステンディッド」を公開したが、それまでは利用可否を選択する有効な手段を提供していなかった、と指摘。

また競争委員会が同年10月に検証したところ、「グーグル・エクステンディッド」でオプトアウト設定をしていたテレビ局「TF1」の最新ニュースが、なお「バード」で利用されていたという。

競争委員会は、これらが7項目の履行義務うちの「誠意ある交渉」「中立的な交渉の保証」の2項目に違反していた、と述べている。

グーグルは「あまりにも長く続いた紛争を解決するため」この罰金を受け入れる、との声明を出している。

●日本の議論

米国やフランスにおける、生成AIと著作物の問題は、日本とも地続きだ。

論点は、2018年の著作権法改正で導入された30条の4(著作物に表現された思想又は感情の享受を目的としない利用)によって、生成AIの学習データとして著作物の著作権が制限されることの扱いだ。

文化庁文化審議会の著作権分科会法制度小委員会は3月15日付で、「AIと著作権に関する考え方について」という文書をまとめている。

この中では、「生成・利用段階において、学習された著作物と創作的表現が共通した生成物の生成が著しく頻発する」といった場合の、30条の4の著作権制限の除外の可能性などを示している。

日本新聞協会は、著作権法の改正を要求している。

●「誠意ある交渉」と「適正な対価」

生成AIの学習データとメディアのコンテンツの問題は、「誠意ある交渉」と「適正な対価」に行き着く。

AP通信と独アクセル・シュプリンガーは、オープンAIとのライセンス契約に納得しているようだ。

だが、ニューヨーク・タイムズも提訴前、オープンAI、マイクロソフトと数カ月にわたる交渉を続けていたことを明らかにしている。生成AIの学習データとしてひときわ存在感のあるニューヨーク・タイムズの対価の設定は、メディア全体にも影響を及ぼす。

そして、「誠意ある交渉」と「適正な対価」が簡単な道のりではないことは、フランスにおけるメディアとグーグルの状況からも見て取れる。

(※2024年3月25日付「新聞紙学的」より加筆・修正のうえ転載)

桜美林大学教授 ジャーナリスト

桜美林大学リベラルアーツ学群教授、ジャーナリスト。早稲田大卒業後、朝日新聞。シリコンバレー駐在、デジタルウオッチャー。2019年4月から現職。2022年から日本ファクトチェックセンター運営委員。2023年5月からJST-RISTEXプログラムアドバイザー。最新刊『チャットGPTvs.人類』(6/20、文春新書)、既刊『悪のAI論 あなたはここまで支配されている』(朝日新書、以下同)『信じてはいけない 民主主義を壊すフェイクニュースの正体』『朝日新聞記者のネット情報活用術』、訳書『あなたがメディア! ソーシャル新時代の情報術』『ブログ 世界を変える個人メディア』(ダン・ギルモア著、朝日新聞出版)

平和博の最近の記事