Yahoo!ニュース

「AIの学習データが底をつく」'2026年問題'の衝撃度とその対策とは?

平和博桜美林大学教授 ジャーナリスト
AIの学習データが底をつく(Bing Image Creatorで筆者作成)

「AIの学習データが底をつく」――'2026年問題'が、改めて注目を集めている。

AI研究の第一人者の1人、カリフォルニア大学バークレー校教授のスチュアート・ラッセル氏が、国連のAIサミットでこの問題を指摘した。

チャットGPTのような大規模言語モデル(LLM)の開発には、膨大な学習データが必要だ。

主な収集先はネットだが、使えそうなデータは徐々に使い尽くされ、良質なデータは2026年には底をつくと見られている。

ツイッターは7月初め、利用回数の制限を実施し騒動となった。その引き金になったのも、AIの学習データ収集のためのアクセス集中だったという。

「大きいことはいいことだ」という大規模言語モデルの開発に、壁が立ちふさがっている。

●「レンガの壁にぶつかる」

個人的には、大規模言語モデルをどんどん大きくして、より多くのデータで学習させるという根本的なやり方が終わりに近づいており、レンガの壁にぶつかり始めていると思う。これらのシステムを学習させるだけのテキストは、世界中で文字通り底をつき始めている。

カリフォルニア大学バークレー校教授のスチュアート・ラッセル氏は、国連の専門機関、国際電気通信連合(ITU)が7月6、7両日にジュネーブで開催したイベント「AI・フォー・グッド・グローバル・サミット」に出席。8日に公開されたインタビュー動画で、今後7年の展望を問われ、こう答えた

米ビジネスサイト、インサイダーが報じている。

ラッセル氏は、AIの教科書の定番とされる共著『エージェントアプローチ 人工知能』や近著『AI新生 人間互換の知能をつくる』などで知られるAI研究の第一人者の1人。

「AIのゴッドファーザー」の1人、モントリオール大学教授のヨシュア・ベンジオ氏やツイッターのオーナー、イーロン・マスク氏、アップル共同創業者のスティーブ・ウォズニアック氏らとともに、「GPT-4を超えるAIの半年間の開発停止」を求める大規模署名も先導した。

ラッセル氏はその中で、「私が見た予測では、そのデータ量は人類がこれまで書いたすべての書籍に匹敵する」とも述べている。

情報サイト「ハウスタッフワークス」の推計によると、人類がこれまで書いた本は1億5,626万4,880タイトルに上るという。

さらに、言葉のやりとりに関わる人間の仕事の多くがAIに取って代わられるだろう、との見通しも示し、こう言う。

AIには人間的な心はない。AIはいわば、'人間もどき'のようなものだと思う。AIは巨大だが底が浅く、奇妙に人間とは違う。我々は、ほんの数か月で何十億もの'人間もどき'の知的存在を、世界に加えてきたのだ。

●2026年の「枯渇」

我々の予測では、低品質の言語データは2030年から2050年までに、高品質の言語データは2026年までに、視覚データは2030年から2060年までに、ストックを使い果たすだろう。これによって、機械学習(ML)の進歩は減速するかもしれない。

AI研究グループ「エポック」は2022年11月10日に、こんな予測を発表した。オープンAIがチャットGPTを公開する20日前のことだ。

高品質の言語データとはウィキペディアやニュース記事、科学論文など、主に編集作業を伴うコンテンツを指す。これに対して低品質の言語データとは、ツイッター投稿などの、編集が行われていないテキストを指す。

「エポック」の見通しでは、大規模言語モデルの品質に影響すると言われる高品質の言語データは、今から3年後の2026年には枯渇。低品質の言語データも早ければその4年後の2030年には枯渇するのだという。

ただし、データ学習の効率化などの進展も加味すると、AI開発の進歩が2040年までに大幅減速する確率は約20%だとしている。

●大規模化の潮流

生成AIはこの数年、大量のデータの学習による大規模化を急速に進めてきた。

生成AIブームの火付け役となったオープンAIのGPTシリーズでも、その傾向は明らかだ。

AIの性能を示すパラメーター数を見ると、2018年の初代のGPTでは1.1億だったが、翌年のGPT-2では14倍の15億、2020年のGPT-3ではさらに117倍の1750億と、わずか2年で1,000倍以上の高性能化を示している。

その学習データにはどのようなものが使われているか。

学習データの情報が公開されているGPT-3では、米NPO「コモンクロール」がネット上から自動収集したデータがベースになっている。

「コモンクロール」から2016年から2019年までの毎月の収集データ、計45テラバイトをダウンロードし、独自にフィルタリングした570ギガバイトのデータセットを作成。これがGPT-3の学習データの60%を占める。

このほか、ソーシャルニュースサイト「レディット」(22%)、ウィキペディア(3%)、書籍データ(16%)を合わせ、約5,000億語(トークン)に上るデータを使用している。

だが2023年3月公開の最新型GPT-4では、学習データやパラメーターなどが一切明らかにされていない。

同じ「コモンクロール」の2019年4月分のデータをもとに、グーグルが公開している学習用データが「C4」だ。フィルタリングをしていないタイプで6テラバイト、不適切表現をフィルタリングした英語版で800ギガバイトある。

ワシントン・ポストが4月19日付の記事で、この「C4」を分析したところ、データの収集先として最も多かったのはグーグルの特許サイト「グーグルパテント」(0.46%)、ついで「ウィキペディア」(0.19%)。

また、トップ10のうちの5つ(ニューヨーク・タイムズ、ロサンゼルス・タイムズ、ガーディアン、フォーブス、ハフポスト)がメディアサイトだった。

※参照:チャットAIの「頭脳」をつくるデータの正体がわかった、プライバシーや著作権の行方は?(04/24/2023 新聞紙学的

●「巨大AIモデルの時代は終わった」

巨大モデルへと突き進んでいく時代は終わったと思う。我々は別の方法で改善に取り組んでいる。

ワイアードの報道によると、オープンAIのCEO、サム・アルトマン氏は4月、マサチューセッツ工科大学(MIT)のイベントでそう語ったという。

大規模言語モデルの開発の方向性は、すでに「終わった」のだという。

この場で、アルトマン氏は、GPT-4の開発プロセスに1億ドルを超すコストがかかったことも認めている。さらに、同社が建設できるデータセンターの数や構築のスピードには物理的な限界があるとも述べたという。

ラッセル氏が指摘するように、「大きいことはいいこと」という生成AI開発の方向性は曲がり角に来ているようだ。

ただ、AI開発にデータが不要になったわけではない。

ベンチャー企業から地球上における最大級の企業に至るまで、AIを扱うほぼすべての企業が膨大な量のデータを(ツイッターから)スクレイピング(収集)している。

ツイッターのオーナー、イーロン・マスク氏は6月30日、ツイッターの投稿でそう述べている。

マスク氏は、AIの学習データとして、外部から膨大な量のツイートが収集されていると主張。

そのアクセス負荷対策として、7月1日から、認証マークのついているユーザーは1日あたり6,000件、認証マークのないユーザーは600件、認証マークのない新規ユーザーは300件という、ツイッター利用件数の上限を設定し、騒動となった。

ツイッターの運営会社「Xコープ」はまたこの件をめぐって7月6日、ダラスの連邦地裁に、スクレイピングを行った4つのIPアドレスに関わる身元不詳の4被告に100万ドルの損害賠償を求める訴訟を起こしている

同様のトラブルは米NPOが運営するアーカイブサイト「インターネット・アーカイブ」でも起きている。

インターネット・アーカイブは5月28日、膨大なアクセスが集中したため、2度にわたって1時間に及ぶサービス停止が発生した、と報告している。

同サイトは、そのアクセスがアマゾンのクラウドサービス「AWS」の64のバーチャルサーバーからのもので、毎秒1万回に上ったとしている。

このほかにも、書籍の著者らが学習データによって著作権が侵害されたとしてオープンAIを訴える訴訟なども起こしている

●メディアと契約する

この合意により、オープンAIはAP通信のテキストアーカイブの一部のライセンスを受け、AP通信はオープンAIのテクノロジーとプロダクトの専門性を活用することになる。

AP通信とオープンAIは7月14日、そんな共同声明を発表している。

金額は非公開だが、オープンAIは、高品質の言語データであるAP通信の過去のニューステキストを、チャットGPTの開発に使用することができるようになる。

このほかに画像配信の「シャッターストック」も、オープンAIとの提携契約を結んでいる。

学習データの収集先として知られてきた「レディット」CEOのスティーブ・ハフマン氏も、データ収集への課金の意向を表明している。

また、6月16日付のフィナンシャル・タイムズによれば、オープンAI、グーグル、マイクロソフト、アドビなどのAI企業は、ニューズ・コープ、アクセル・シュプリンガー、ニューヨーク・タイムズ、ガーディアンなどのメディアと話し合いに入っているという。

●合成データに取り組む

人間によって作成された「オーガニックデータ」の不足に対して、AIによって作成した「合成データ」の利用も広がっているという。

フィナンシャル・タイムズは7月19日付の記事で、「人間が作成したデータは非常に高価だ」と、合成データを活用するAIベンチャーCEOの発言を紹介している。

オープンAIのアルトマン氏も、「近い将来、すべてのデータが合成データになると確信している」と、期待を表明しているという。

実際に、小規模な言語モデルでは、合成データを使った開発でも成果が出ているという。

ただ、一方では、懸念も指摘される。

ケンブリッジ大学やオックスフォード大学などの研究チームが5月27日に公開した査読前論文では、AIが作成したデータをAIが何代にもわたって学習し続けると、「データ汚染」によってAIの「モデル崩壊」が起こる、と指摘されている

※参照:生成AIによる「データ汚染」で生成AIが崩壊する、それを防ぐには?(06/23/2023 新聞紙学的

●'人間もどき'と人間

スチュアート・ラッセル氏が指摘するように、少なくとも現時点の生成AIは、膨大なデータによる学習は行っているものの、その意味を「理解」しているわけではなく、確率に基づく推論で言葉をつなげることしかできない'人間もどき'だ。

人間の知の総量の手がかりとして書籍がある。前述のように、その総数は1億5,000万タイトルを超すと見られている。

意味を「理解」できない'人間もどき'が、これらを含めた人類のすべての情報を学習し尽くしたら、どうなるのか。

やや賢い'人間もどき'のままなのか、少し違う'何か'に変貌するのか。

(※2023年7月24日付「新聞紙学的」より加筆・修正のうえ転載)

桜美林大学教授 ジャーナリスト

桜美林大学リベラルアーツ学群教授、ジャーナリスト。早稲田大卒業後、朝日新聞。シリコンバレー駐在、デジタルウオッチャー。2019年4月から現職。2022年から日本ファクトチェックセンター運営委員。2023年5月からJST-RISTEXプログラムアドバイザー。最新刊『チャットGPTvs.人類』(6/20、文春新書)、既刊『悪のAI論 あなたはここまで支配されている』(朝日新書、以下同)『信じてはいけない 民主主義を壊すフェイクニュースの正体』『朝日新聞記者のネット情報活用術』、訳書『あなたがメディア! ソーシャル新時代の情報術』『ブログ 世界を変える個人メディア』(ダン・ギルモア著、朝日新聞出版)

平和博の最近の記事