「生成AIでニュースにタダ乗り」相次ぐメディア訴訟と罰金410億円、その適正な対価とは?
生成AIによるニュースの無断利用が、相次ぐメディア訴訟と410億円という巨額の罰金で、改めて注目を集めている。
「インターセプト」などの米オンラインメディアは2月末に相次いでオープンAIとマイクロソフトを提訴した。ニューヨーク・タイムズによる同様の訴訟に続き、「生成AIによるニュースのタダ乗り」が論点になっている。
フランスでは、規制当局の競争委員会が3月20日、グーグルがニュース使用料についてメディアと「誠意ある交渉」を行わず、生成AIでニュースを無断利用していた、などとして、2億5,000万ユーロ(約410億円)という巨額の罰金を科した。
生成AIとニュースの、行き着く先とは?
●「模倣に過ぎない」
数々の調査報道で知られる非営利の米オンラインニュースメディア「インターセプト」は、オープンAIとマイクロソフトを相手取り、2月28日付でニューヨーク南部地区連邦地裁に起こした裁判の訴状の中で、そう指摘している。
米オンラインニュースメディアの「ローストーリー」「オルターネット」も同日付で同地裁に同じ訴訟を起こしている。
「インターセプト」など3メディアは、これらのチャットGPTの振る舞いが、デジタルコンテンツの著作権保護を定めたデジタルミレニアム著作権法(DMCA)違反に当たる、と主張している。
訴状は、AI生成コンテンツの検知サービスを提供する「コピーリークス」が2月22日に発表したチャットGPTの大規模言語モデル(LLM)、GPT-3.5に関する調査結果を引用している。
調査ではGPT-3.5に物理学から経済学、スポーツまでの26分野、1,045件のテキストの出力を指示したところ、59.7%で盗用を含むテキストが含まれ、45.7%で同一のテキストがあった、と指摘。「これは、GPT-3.5が"真新しい"テキストを製造しているわけではないことを示している」と述べる。
同様の指摘は、他の調査でも示されている。
元メタのAI研究者らが設立した「パトロナスAI」は3月6日、代表的な大規模言語モデルを対象に、著作権で保護されたコンテンツを生成する割合を比較した調査結果を発表した。
それによると、著作権保護コンテンツの生成割合が最も高かったのは、オープンAIのGPT-4で44%。次いでフランスのミストラルの22%、メタのラマ2の10%、アンスロピックのクロード2.1の8%だったという。
「インターセプト」などは、無断利用による損害賠償と、学習データなどからコンテンツを削除することを求めている。
●「タダ乗り」対「ハッキング」
「インターセプト」などの提訴の先例となったのが、ニューヨーク・タイムズだ。
ニューヨーク・タイムズは2023年12月27日、やはりオープンAIとマイクロソフトを相手取って、ニューヨーク南部地区連邦地裁へ起こした著作権侵害訴訟で、そう主張している。
ニューヨーク・タイムズの場合は、米著作権局(USCO)に紙の新聞の著作権登録手続きを行っているため、デジタルミレニアム著作権法だけでなく、著作権法違反の訴えも行っている。
ニューヨーク・タイムズは、生成AIの学習データの中でも、図抜けた存在感がある。
チャットGPTに先行するオープンAIのGPT-2の学習データにおけるランキングでは、ニューヨーク・タイムズは、グーグル、インターネット・アーカイブ、(グーグル傘下の)ブロガー、(マイクロソフト傘下の)ギットハブに次ぐ5位を占める。
また、グーグルが公開している大規模学習データ「C4」のウェブサイト別ランキングでは、グーグル・パテント(特許検索)、ウィキペディア、文書共有のスクリブドに次いで、ニューヨーク・タイムズは4位となっている。
トップ10には、ニューヨーク・タイムズを含め、ロサンゼルス・タイムズ(6位)、ガーディアン(7位)、フォーブス(8位)、ハフポスト(9位)とニュースメディア5サイトが並ぶ。
※参照:チャットAIの「頭脳」をつくるデータの正体がわかった、プライバシーや著作権の行方は?(04/24/2023 新聞紙学的)
大量のデータが学習されているだけでなく、ほぼオリジナルと同じテキストが、チャットGPT(およびコパイロット)から生成されている、とニューヨーク・タイムズは指摘する。
ニューヨーク・タイムズは、その実例として裁判所に100件に上る検証結果を提出している。それによれば、ニューヨーク・タイムズの実際のニュースの冒頭部分を、プロンプト(生成指示文)としてGTP-4に入力すると、それに続くニュースのテキストが出力され、その文面はオリジナルとほぼ同一だったとしている。
オープンAIは、これが稀な「バグ」であると反論。さらに、「ニューヨーク・タイムズは誰かを雇い、オープンAIのプロダクトをハックした」と主張。ニューヨーク・タイムズはこれに対し、「虚偽で無意味な主張」と否定している。
●フランスでも「無断利用」指摘
フランスの規制当局、競争委員会(ADLC)は3月20日、グーグルに2億5,000万ユーロ(約410億円)という巨額の罰金を科すとの発表の中で、こんな指摘をしている。
フランスでの紛争のもとになったのは、競争委員会と裁判所を舞台とした、ニュース利用の「タダ乗り」問題を巡るグーグルとメディアの、2019年以来の応酬だった。
※参照:罰金650億円でGoogleが学んだニュース使用料「誠意ある交渉」のやり方(06/23/2022 新聞紙学的)
この紛争は2022年6月、グーグルが、競争委員会の罰金としては過去最高額の5億ユーロ(当時のレートで約650億円)を受け入れたことで、いったん決着したはずだった。
だが、競争委員会の今回の発表によれば、グーグルは2022年に示した「誠意ある交渉」などの7項目の履行義務のうち、4項目を遵守しなかったとして、さらに2億5,000万ユーロの罰金を科されることになったという。
その調査の過程で、フランスでは2023年7月からサービスを開始したグーグルの生成AI「バード(現ジェミニ)」の学習データとして、国内メディアのコンテンツが無断利用されていることが明らかになったという。
さらにグーグルは同年9月末に「バード」による学習データ利用をオプトアウト(拒否)するためのツール「グーグル・エクステンディッド」を公開したが、それまでは利用可否を選択する有効な手段を提供していなかった、と指摘。
また競争委員会が同年10月に検証したところ、「グーグル・エクステンディッド」でオプトアウト設定をしていたテレビ局「TF1」の最新ニュースが、なお「バード」で利用されていたという。
競争委員会は、これらが7項目の履行義務うちの「誠意ある交渉」「中立的な交渉の保証」の2項目に違反していた、と述べている。
グーグルは「あまりにも長く続いた紛争を解決するため」この罰金を受け入れる、との声明を出している。
●日本の議論
米国やフランスにおける、生成AIと著作物の問題は、日本とも地続きだ。
論点は、2018年の著作権法改正で導入された30条の4(著作物に表現された思想又は感情の享受を目的としない利用)によって、生成AIの学習データとして著作物の著作権が制限されることの扱いだ。
文化庁文化審議会の著作権分科会法制度小委員会は3月15日付で、「AIと著作権に関する考え方について」という文書をまとめている。
この中では、「生成・利用段階において、学習された著作物と創作的表現が共通した生成物の生成が著しく頻発する」といった場合の、30条の4の著作権制限の除外の可能性などを示している。
日本新聞協会は、著作権法の改正を要求している。
●「誠意ある交渉」と「適正な対価」
生成AIの学習データとメディアのコンテンツの問題は、「誠意ある交渉」と「適正な対価」に行き着く。
AP通信と独アクセル・シュプリンガーは、オープンAIとのライセンス契約に納得しているようだ。
だが、ニューヨーク・タイムズも提訴前、オープンAI、マイクロソフトと数カ月にわたる交渉を続けていたことを明らかにしている。生成AIの学習データとしてひときわ存在感のあるニューヨーク・タイムズの対価の設定は、メディア全体にも影響を及ぼす。
そして、「誠意ある交渉」と「適正な対価」が簡単な道のりではないことは、フランスにおけるメディアとグーグルの状況からも見て取れる。
(※2024年3月25日付「新聞紙学的」より加筆・修正のうえ転載)