「AIの学習データが底をつく」'2026年問題'の衝撃度とその対策とは?
「AIの学習データが底をつく」――'2026年問題'が、改めて注目を集めている。
AI研究の第一人者の1人、カリフォルニア大学バークレー校教授のスチュアート・ラッセル氏が、国連のAIサミットでこの問題を指摘した。
チャットGPTのような大規模言語モデル(LLM)の開発には、膨大な学習データが必要だ。
主な収集先はネットだが、使えそうなデータは徐々に使い尽くされ、良質なデータは2026年には底をつくと見られている。
ツイッターは7月初め、利用回数の制限を実施し騒動となった。その引き金になったのも、AIの学習データ収集のためのアクセス集中だったという。
「大きいことはいいことだ」という大規模言語モデルの開発に、壁が立ちふさがっている。
●「レンガの壁にぶつかる」
カリフォルニア大学バークレー校教授のスチュアート・ラッセル氏は、国連の専門機関、国際電気通信連合(ITU)が7月6、7両日にジュネーブで開催したイベント「AI・フォー・グッド・グローバル・サミット」に出席。8日に公開されたインタビュー動画で、今後7年の展望を問われ、こう答えた。
米ビジネスサイト、インサイダーが報じている。
ラッセル氏は、AIの教科書の定番とされる共著『エージェントアプローチ 人工知能』や近著『AI新生 人間互換の知能をつくる』などで知られるAI研究の第一人者の1人。
「AIのゴッドファーザー」の1人、モントリオール大学教授のヨシュア・ベンジオ氏やツイッターのオーナー、イーロン・マスク氏、アップル共同創業者のスティーブ・ウォズニアック氏らとともに、「GPT-4を超えるAIの半年間の開発停止」を求める大規模署名も先導した。
ラッセル氏はその中で、「私が見た予測では、そのデータ量は人類がこれまで書いたすべての書籍に匹敵する」とも述べている。
情報サイト「ハウスタッフワークス」の推計によると、人類がこれまで書いた本は1億5,626万4,880タイトルに上るという。
さらに、言葉のやりとりに関わる人間の仕事の多くがAIに取って代わられるだろう、との見通しも示し、こう言う。
●2026年の「枯渇」
AI研究グループ「エポック」は2022年11月10日に、こんな予測を発表した。オープンAIがチャットGPTを公開する20日前のことだ。
高品質の言語データとはウィキペディアやニュース記事、科学論文など、主に編集作業を伴うコンテンツを指す。これに対して低品質の言語データとは、ツイッター投稿などの、編集が行われていないテキストを指す。
「エポック」の見通しでは、大規模言語モデルの品質に影響すると言われる高品質の言語データは、今から3年後の2026年には枯渇。低品質の言語データも早ければその4年後の2030年には枯渇するのだという。
ただし、データ学習の効率化などの進展も加味すると、AI開発の進歩が2040年までに大幅減速する確率は約20%だとしている。
●大規模化の潮流
生成AIはこの数年、大量のデータの学習による大規模化を急速に進めてきた。
生成AIブームの火付け役となったオープンAIのGPTシリーズでも、その傾向は明らかだ。
AIの性能を示すパラメーター数を見ると、2018年の初代のGPTでは1.1億だったが、翌年のGPT-2では14倍の15億、2020年のGPT-3ではさらに117倍の1750億と、わずか2年で1,000倍以上の高性能化を示している。
その学習データにはどのようなものが使われているか。
学習データの情報が公開されているGPT-3では、米NPO「コモンクロール」がネット上から自動収集したデータがベースになっている。
「コモンクロール」から2016年から2019年までの毎月の収集データ、計45テラバイトをダウンロードし、独自にフィルタリングした570ギガバイトのデータセットを作成。これがGPT-3の学習データの60%を占める。
このほか、ソーシャルニュースサイト「レディット」(22%)、ウィキペディア(3%)、書籍データ(16%)を合わせ、約5,000億語(トークン)に上るデータを使用している。
だが2023年3月公開の最新型GPT-4では、学習データやパラメーターなどが一切明らかにされていない。
同じ「コモンクロール」の2019年4月分のデータをもとに、グーグルが公開している学習用データが「C4」だ。フィルタリングをしていないタイプで6テラバイト、不適切表現をフィルタリングした英語版で800ギガバイトある。
ワシントン・ポストが4月19日付の記事で、この「C4」を分析したところ、データの収集先として最も多かったのはグーグルの特許サイト「グーグルパテント」(0.46%)、ついで「ウィキペディア」(0.19%)。
また、トップ10のうちの5つ(ニューヨーク・タイムズ、ロサンゼルス・タイムズ、ガーディアン、フォーブス、ハフポスト)がメディアサイトだった。
※参照:チャットAIの「頭脳」をつくるデータの正体がわかった、プライバシーや著作権の行方は?(04/24/2023 新聞紙学的)
●「巨大AIモデルの時代は終わった」
ワイアードの報道によると、オープンAIのCEO、サム・アルトマン氏は4月、マサチューセッツ工科大学(MIT)のイベントでそう語ったという。
大規模言語モデルの開発の方向性は、すでに「終わった」のだという。
この場で、アルトマン氏は、GPT-4の開発プロセスに1億ドルを超すコストがかかったことも認めている。さらに、同社が建設できるデータセンターの数や構築のスピードには物理的な限界があるとも述べたという。
ラッセル氏が指摘するように、「大きいことはいいこと」という生成AI開発の方向性は曲がり角に来ているようだ。
ただ、AI開発にデータが不要になったわけではない。
ツイッターのオーナー、イーロン・マスク氏は6月30日、ツイッターの投稿でそう述べている。
マスク氏は、AIの学習データとして、外部から膨大な量のツイートが収集されていると主張。
そのアクセス負荷対策として、7月1日から、認証マークのついているユーザーは1日あたり6,000件、認証マークのないユーザーは600件、認証マークのない新規ユーザーは300件という、ツイッター利用件数の上限を設定し、騒動となった。
ツイッターの運営会社「Xコープ」はまたこの件をめぐって7月6日、ダラスの連邦地裁に、スクレイピングを行った4つのIPアドレスに関わる身元不詳の4被告に100万ドルの損害賠償を求める訴訟を起こしている。
同様のトラブルは米NPOが運営するアーカイブサイト「インターネット・アーカイブ」でも起きている。
インターネット・アーカイブは5月28日、膨大なアクセスが集中したため、2度にわたって1時間に及ぶサービス停止が発生した、と報告している。
同サイトは、そのアクセスがアマゾンのクラウドサービス「AWS」の64のバーチャルサーバーからのもので、毎秒1万回に上ったとしている。
このほかにも、書籍の著者らが学習データによって著作権が侵害されたとしてオープンAIを訴える訴訟なども起こしている。
●メディアと契約する
AP通信とオープンAIは7月14日、そんな共同声明を発表している。
金額は非公開だが、オープンAIは、高品質の言語データであるAP通信の過去のニューステキストを、チャットGPTの開発に使用することができるようになる。
このほかに画像配信の「シャッターストック」も、オープンAIとの提携契約を結んでいる。
学習データの収集先として知られてきた「レディット」CEOのスティーブ・ハフマン氏も、データ収集への課金の意向を表明している。
また、6月16日付のフィナンシャル・タイムズによれば、オープンAI、グーグル、マイクロソフト、アドビなどのAI企業は、ニューズ・コープ、アクセル・シュプリンガー、ニューヨーク・タイムズ、ガーディアンなどのメディアと話し合いに入っているという。
●合成データに取り組む
人間によって作成された「オーガニックデータ」の不足に対して、AIによって作成した「合成データ」の利用も広がっているという。
フィナンシャル・タイムズは7月19日付の記事で、「人間が作成したデータは非常に高価だ」と、合成データを活用するAIベンチャーCEOの発言を紹介している。
オープンAIのアルトマン氏も、「近い将来、すべてのデータが合成データになると確信している」と、期待を表明しているという。
実際に、小規模な言語モデルでは、合成データを使った開発でも成果が出ているという。
ただ、一方では、懸念も指摘される。
ケンブリッジ大学やオックスフォード大学などの研究チームが5月27日に公開した査読前論文では、AIが作成したデータをAIが何代にもわたって学習し続けると、「データ汚染」によってAIの「モデル崩壊」が起こる、と指摘されている。
※参照:生成AIによる「データ汚染」で生成AIが崩壊する、それを防ぐには?(06/23/2023 新聞紙学的)
●'人間もどき'と人間
スチュアート・ラッセル氏が指摘するように、少なくとも現時点の生成AIは、膨大なデータによる学習は行っているものの、その意味を「理解」しているわけではなく、確率に基づく推論で言葉をつなげることしかできない'人間もどき'だ。
人間の知の総量の手がかりとして書籍がある。前述のように、その総数は1億5,000万タイトルを超すと見られている。
意味を「理解」できない'人間もどき'が、これらを含めた人類のすべての情報を学習し尽くしたら、どうなるのか。
やや賢い'人間もどき'のままなのか、少し違う'何か'に変貌するのか。
(※2023年7月24日付「新聞紙学的」より加筆・修正のうえ転載)