チャットAIの「頭脳」をつくるデータの正体がわかった、プライバシーや著作権の行方は？

平和博

桜美林大学教授　ジャーナリスト

2023/4/24(月) 7:10

チャットAIの膨大な学習データとは、どこから、どんなものが集められているのか？

これまでその実態が不明だった疑問の一端が、明らかにされた。

ワシントン・ポストは4月19日、グーグルが公開している巨大データセットの収集源の分析結果を明らかにした。

データは1,570万件のウェブサイトから収集されていた。その中には、特許検索からニューヨーク・タイムズ、さらには白人至上主義サイトや選挙の有権者名簿まで、多様なサイトが含まれていた。

プライバシー侵害、人種・性別のバイアス（偏見・差別）、著作権侵害など、チャットAIをめぐっては根強い懸念がある。その「頭脳」のもとになっているのが、膨大な学習データだ。

そして、チャットAIブームの台風の目となっているチャットGPTは、その学習データが非公開になっている。

巨大データに含まれる、個人データや著作物の行方は？

●最大のデータは？

我々はブラックボックスの中を見るために、1,500万件のウェブサイトの内容を集めた大規模なスナップショットであるグーグルのC4データセットを分析した。これは、グーグルのT5やフェイスブックのラマ（LLaMA）など、大規模言語モデルと呼ばれる注目の英語版AIを学習させるために使われてきたものだ。

ワシントン・ポストは4月19日の記事で、そう述べている。

ワシントン・ポストが検証したのはC4（Colossal Clean Crawled Corpus）と呼ばれる、1,570万に上るウェブサイトから収集したデータセットだ。

C4データの中には、どのようなサイトが含まれているのか。

ワシントン・ポストは、C4に含まれるトークン（単語や文字列）の数によって、サイトのランキングを行っている。

最も多かったのは、グーグルの特許検索サイト「グーグルパテント（patents.google.com）」で、トークン数は7億2,000万件、データ全体の0.46％を占めた。

2位はウィキペディア（wikipedia.org）で2億9,000万トークン、データ全体の0.19％。3位は文書共有・電子書籍購読サービスの「スクリブド（scribd.com）」で1億トークン、データ全体の0.07％だった。

以下、トップ10ではニューヨーク・タイムズ（4位）、ロサンゼルス・タイムズ（6位）、ガーディアン（7位）、フォーブス（8位）、ハフポスト（9位）とメディアの存在感が際立つ。この調査を報じたワシントン・ポストは11位だった。

多くのブログも学習データになっていた。

ブログサイト「メディアム」が46位だったほか、「ワードプレス」「タンブラー」「ブロガー」「ライブジャーナル」なども含まれていた。サイト作成サービスの「グーグルサイト」は85位だった。

分野別では「ビジネス・産業」（16％）が最も多く、次いで「テクノロジー」（15％）、「ニュース・メディア」（13％）、「アート・エンターテイメント」（11％）、「科学・健康」（9％）の順だった。

●プライバシー、バイアス、著作権への懸念

AIの学習データに注目が集まるのは、その内容によって、アルゴリズムに人種や性別などへのバイアスが生じたり、プライバシーの侵害や、著作権侵害につながったりすることへの懸念があるためだ。

ワシントン・ポストの調査では、トークン数によるリストの上位には、様々な問題点が指摘されるサイトも含まれていた。

190位には、海賊版電子書籍サイトとして知られた「Zライブラリー」のアドレスの一つがあった。同サイトは米連邦捜査局（FBI）が2022年11月に摘発。運営者は起訴され、サイトは閉鎖に追い込まれた。

米通商代表部（USTR）が海賊版・模造品サイトとして指定する27サイトのデータも、C4に含まれていることが確認されたという。

また、データの上位にはコロラド州（40位）やフロリダ州（73位）の有権者名簿も含まれていた。公開情報だが、大量の個人データでもある。

25位のクラウドファンディングサイト「キックスターター」には、クリエーターらによる多数のアートプロジェクトも含まれる。

後述のように、画像生成AIをめぐってクリエーターらによる訴訟も起きている。C4データでは、著作権記号が2億回以上表示されたという。

それだけでなく、ナチスを示す「カギ十字（swastika）」も7万2,000回以上、表示されたという。

信頼度が疑問視されるサイトのデータも含まれていた。

ロシア国営メディア「RT」は65位に入っていた。欧州連合（EU）は、ロシアによるウクライナ侵攻開始後の2022年3月から、フェイクニュースなどの発信源として、RTの域内での配信を全面禁止している。また、サイト評価会社「ニュースガード」は、RTの信頼度を100点満点中の20点としている。

このほか、「ヘイトスピーチの温床」などと指摘される匿名掲示板の4chanや、白人至上主義サイト、反トランスジェンダーサイトなどのデータも含まれていた。

●ベースはオープンデータ

C4のベースになっているのは、米NPO「コモンクロール」が収集しているデータセットだ。

コモンクロールは毎月、ネット上の膨大なデータを収集（クロール）し、それをアマゾンの支援で同社のクラウド（AWS）上でオープンデータとして公開している。

C4は、このうち2019年4月分をもとに、グーグルが不適切データのフィルタリング処理などをしたデータだ。

C4は、フィルタリング処理をしていないタイプでデータ量は6テラバイト、英語を中心に、ダミーテキストや不快・不適切な表現リストなどでフィルタリングしたバージョンで800ギガバイトに上る。

グーグルは2020年2月、C4を同社のAI「T5（Text-To-Text Transfer Transformer）」の学習データとして公開した。

C4は、グーグルが2021年5月に発表したチャットAI「ラムダ（LaMDA）」の学習データにも使われている。グーグルが2023年3月21日、チャットGPTへの対抗として一般向けに公開したチャットAI「バード（Bard）」は、ラムダを改良した軽量版だ。

また、メタが2月24日に学術用として公開したチャットAI「ラマ（LLaMA）」でも、C4が学習データとして使われている。

ワシントン・ポストは、C4データの調査を手がけた「アレンAI研究所（AI2）」とウェブ調査会社「シミラーウェブ」の協力で、データに含まれた1,570万のサイトのうち、現存する1,000万サイトについてジャンル別の分類を行った。

●チャットGPTのデータは非公開

チャットAIの注目の中心は、チャットGPTだ。だが、チャットGPTそのものについての学習データは非公開となっている。

チャットGPTの最新版のベースとなっているGPT-4の概要をまとめた「テクニカルレポート」ではこう述べるのみだ。

GPT-4のような大規模言語モデルの競争環境と安全性を考慮し、本報告書では、アーキテクチャ（モデルサイズを含む）、ハードウェア、学習計算、データセット構成、学習方法などに関する詳細な情報を記載していない。

ただ、その前身のGPT-3については、2020年7月に公開した論文で、学習データをある程度明らかにしている。

主要な学習データのもとになったのは、C4と同じコモンクロールのオープンデータだ。

2016年から2019年までの毎月の収集データ、計45テラバイトをダウンロードし、独自にフィルタリングをした570ギガバイトを使用したという。これが学習データ全体の60％を占める。

さらに、ソーシャルニュースサイト「レディット」で共有されたリンクのうち、カルマ（ユーザーによる支持と不支持の差のスコア）が3以上のサイトのデータを、オープンAIが独自収集した「ウェブテキスト2」と呼ばれるデータセットもある。学習データの22％を占める。

さらにウィキペディアからの収集データが全体の3％とされている。このほかに「ブックス1」「ブックス2」とされる書籍データが計16％とされているが、詳細は不明だ。

●学習データをめぐる波紋

ネットから収集される、AIの大規模な学習データの中身は、前述のように様々な波紋を呼んでいる。

C4の中でも上位のデータ収集源として目立ったのが、ニュースメディアだ。

これまでもグーグル、メタなどのプラットフォームとニュースメディアの間では、「ニュース使用料」の支払いをめぐる攻防があった。

EUやオーストラリアでは「ニュース使用料」支払いを後押しする法整備が行われ、カナダでも検討が続く。

※参照：罰金650億円でGoogleが学んだニュース使用料「誠意ある交渉」のやり方（06/23/2022　新聞紙学的）

ブルームバーグの2月17日の報道によると、チャットGPTの広がりを受けて、ウォールストリート・ジャーナルやCNNは、ニュースを学習データとして扱うことについて、懸念を表明したという。

データの使用料を請求する、と表明したサイトもある。前述のソーシャルニュースサイト、レディットだ。

ニューヨーク・タイムズの4月18日付のインタビューで、レディットCEOのスティーブ・ハフマン氏はこう述べている。

レディットのコーパス（文章）データは非常に価値がある。しかし、その価値のすべてを世界有数の大企業に無償で提供する必要はない。

C4でもレディットは540位、790万トークンが含まれ、全体の0.005%を占めた。

オープンAIはGPT-3、GPT-4でレディットのデータを使用していることを明らかにしており、グーグルもAIの学習にレディットのデータを使用してきた。

バイアスの問題も指摘される。AIの学習データの収集源サイトにおける、ユーザー層の偏りだ。

2016年のピュー・リサーチ・センターの調査では、レディットのユーザー層は、男性が67％、18歳から29歳が64％を占めることが明らかになっている。

またテキサス大学アーリントン校のアーキビスト、マイケル・バレラ氏の調査では、ウィキペディアの執筆者・編集者に占める女性の割合は8.8－15％にとどまるという。

大量のウェブテキストを「全人類」の「代表」として受け入れることは、支配的な視点を永続させ、権力の不均衡を拡大し、不平等をさらに固定化する危険性がある。その代わりに、インターネット上で十分に代表されていないコミュニティを積極的に取り込んでいく取り組みを提案する。

AI倫理の研究者として知られるティムニット・ゲブル氏らは、大規模言語モデルの課題と限界についてまとめた2021年3月の論文「確率的オウム返し：言語モデルは巨大になりすぎるのか？」で、そう述べている。

ゲブル氏は、グーグル在籍時にまとめたこの共著論文を社内で問題視され、同年12月に退職する事態となった。

※参照：AIと「バイアス」：顔認識に高まる批判（09/01/2018　新聞紙学的）

チャットAIの回答に現れるバイアスは、すでに確認されている。

スタンフォード大学とカナダのマクマスター大学の研究チームが2021年6月に発表した調査では、GPT-3に「2人のイスラム教徒が立ち入ると...」という文章の続きを指示すると、100回のうち66回で「爆弾」「発砲」など暴力に関わる表現が含まれた、という。

指示文を「キリスト教徒」「シーク教徒」など他の宗教に入れ替えると、いずれも暴力的表現は20回未満だったという。

カリフォルニア大学バークレー校准教授のスティーブン・ピアンタドーシ氏は2022年12月、人種とジェンダーに基づいて「すぐれた科学者」をチェックするプログラムを書くよう、チャットGPTに指示した。

するとチャットGPTは、その条件として「白人」と「男性」を指定するプログラムを出力したという。

●著作権をめぐる訴訟

学習データをめぐっては、画像の生成AIでも懸念が沸き上がっている。

ステイブル・ディフュージョンや同様の製品が、現在のように運用され続けることが許されるなら、いずれアーティストそのものを置き換えることになる。アーティストたちから盗まれた作品は、アーティストが競合することになるAI製品の強化に使われているのだ。

3人のアーティストが1月14日、サンフランシスコ北部地区連邦地裁に集団訴訟を起こしたことを発表するプレスリリースは、そう主張している。

訴えられたのは、画像生成AI「ステイブル・ディフュージョン」を運営する英企業、スタビリティAIと、同システムを利用したサービス「ドリームアップ」を運営する米企業、デビアントアート、独自の画像生成AIを展開する米企業、ミッドジャーニーの3社だ。

ステイブル・ディフュージョン、ミッドジャーニーは、独NPO「ライオン（LAION）」が2022年3月に公開したオープンデータ「ライオン-5B」を学習データとして使用している。

「ライオン5B」は前述のオープンデータ、コモンクロールから、58億5,000万件の画像のURL（アドレス）とそのキャプションをセットで抽出したデータだ。データセットに画像そのものは含まれていないという。

原告側は、これらの生成AIが「数十億の著作権で保護された画像で学習」されており、デジタルミレニアム著作権法（DMCA）などに違反していると主張する。

被告側は、著作権侵害には当たらない「フェアユース（公正利用）である」と反論しているという。

スタビリティAIは、ゲッティイメージズが所有または代理する著作権で保護された数百万の画像および関連するメタデータを、スタビリティAIの商業的利益のため、ライセンスなしで違法にコピーおよび処理し、コンテンツ制作者に不利益をもたらした。

画像配信サービスのゲッティイメージズは1月17日、スタビリティAIを相手取り、ロンドン高等法院に提訴したことを公表。その声明の中で、こう主張している。

ステイブル・ディフュージョンが作成した複数の画像に、ゲッティイメージズの「透かし」が確認できたという。

学習データがはらむ問題は、生成AIの急速な普及に、幅広く影を落としている。

●データの一部に過ぎない

今回、ワシントン・ポストがその概要を明らかにしたC4データは、チャットAI開発で使われる学習データの一部にすぎない。

グーグルのラムダでは、C4が学習データ全体に占める割合が12.5％、ウィキペディアのデータも同じ12.5％なのに対して、具体的な内容が不明の「パブリックフォーラムの対話データ」が50％を占める。

また、メタのラマでは、コモンクロールのデータを同社が独自にフィルタリングした「CCネット」というデータが67％を占め、C4は15％、マイクロソフト傘下のプログラム共有サイト「ギットハブ」（4.5％）、ウィキペディア（4.5％）などとなっている。

ワシントン・ポストは、C4データに、各サイトからどれだけのデータが収集されているのかをトークン単位で調べることができるデータベースを公開している。

そのごく一部に、筆者のブログ「新聞紙学的（kaztaira.wordpress.com）」のデータも含まれていた。

ただし、そのトークン数はわずか33、順位は1,480万2,030位、C4全体に占める割合は0.00000002%だった。

筆者自身も、0.00000002%の当事者だった。

（※2023年4月24日付「新聞紙学的」より加筆・修正のうえ転載）

Yahoo!ニュース

チャットAIの「頭脳」をつくるデータの正体がわかった、プライバシーや著作権の行方は？

●最大のデータは？

●プライバシー、バイアス、著作権への懸念

●ベースはオープンデータ

●チャットGPTのデータは非公開

●学習データをめぐる波紋

●著作権をめぐる訴訟

●データの一部に過ぎない

平和博の書籍紹介

平和博の最近の記事

トピックス（主要）

オーサーアクセスランキング