自家中毒に陥る生成AI
生成AIとメディア企業の連携
ChatGPT等で知られるOpenAIが、世界最大の掲示板サイトであるRedditとの連携を発表した(gihyo.jpの記事)。アナウンスには「OpenAIはRedditのデータAPIにアクセスし、Redditからリアルタイムで構造化されたユニークなコンテンツを獲得します」とあるので、Redditへの投稿を大々的に学習対象とするということのようである。
生成AIの性能改善で鍵となるのは学習データだが、最近ではトレーニングに使えるデータが枯渇しつつある。人間にとってはウィキペディアやワールド・ワイド・ウェブはとうてい汲み尽くせない広大な知の海だが、それでもAIは学び尽くしてしまったのだ。そこで目が向くのが有料コンテンツだが、OpenAIはニューヨーク・タイムズ等にコンテンツの無断使用で訴えられており、そうしたリスクを極力避けるためにもデータの供給源としてメディア企業と正式なパートナーシップを結ぶ必要がある。実際、OpenAIは最近ファイナンシャル・タイムズとも似たような契約を結んでいた。Redditにペイウォールは存在しないが、訴訟リスクの無い学習用データを少しでも多く確保したいというOpenAIの必死の努力の一環なのは間違いないだろう。
生成AIによるコンテンツ汚染
従来もなんだかんだでReddit等のデータは入り込んでいたとは思うが、しかし今後正式に学習対象にするとなると懸念がある。というのも、RedditはすでにAIが生成したコンテンツにかなり「汚染」されていると考えられるからだ。例えばこのRedditユーザは、(やや意味不明な)長文を数分間隔で大量に投稿しているが、これは人間に可能なスピードではなく、おそらく生成AIを使って自動投稿するボットの仕業であろう。こうしたAIボットはRedditに限らず大量に存在し、規制は(それこそ検出にAIを用いたとしても)いたちごっこである。昔の「荒し」は前後の文脈を無視して決まったパターンを投稿したり、そもそも英語なり日本語なりの体を為していなかったりで検出は比較的容易だったが、AIのおかげで中途半端に人間臭くなり、人間と見分けが付きにくくなってしまったからだ。
そもそもウェブ自体、AIによって作られたコンテンツが蔓延している。ニュース検証団体のNewsGuardによれば、AIが自動生成していると目される「ニュースサイト」は少なくとも831件に上っていて、今後も増えることこそあれ減ることはないだろう。情報戦の一環として、何らかの意図があって偽情報やフェイクニュースを流していることもあるが、単にAIが間抜けなので嘘を垂れ流していることも多い。それをAIが学習してしまって再生産するのである。また、AIの学習対象になっていると知れば、自分にとって都合の良い言説をAIで大量にばらまき植え付けようとする動きもいっそう激しくなるだろう。百科事典の捏造から別の世界を生み出そうとする秘密結社を描いたボルヘスの小説「トレーン、ウクバール、オルビス・テルティウス」を彷彿とさせる。
生成AIの自家中毒
ようするに現在生成AIは、AIの出力結果をAIが学んでAIが出力し、さらにそれをAIが学んで…という体になりつつある。これは、AIの自家中毒とでも言うべき様相である。更にそれをチェックできるだけの知識の無い人間が鵜呑みにしてしまい、「人間が」同様に書いてお墨付きを与えてしまったりするので、事態は更に悪化する。いずれにせよ、こうした流れがAIの精度向上、特に現状一番大きな問題と思われるハルシネーション(AIが嘘やでっちあげを堂々と言ってしまう)の解決につながるとはとうてい思えない。
もちろん、限られた学習データでもなんとか精度を高められるよう、少数ショット学習や転移学習といったテクニックはさかんに研究されているが、個人的にはよほどのブレークスルーが無い限り決定打にはならないように思う。また、AIが合成したものであってもデータはデータなのだから学習させても問題ないという考え方もあるだろうが(シミュレーションやアルゴリズムで学習用データを合成するという研究やスタートアップも多くもある)、コピー機でコピーをコピーするとだんだんぼやけていくように、これまた限界はあるのではないだろうか。昔から言われる原則、GIGO(ガベージ・イン、ガベージ・アウト、「ゴミを入れるとゴミが出てくる」)は現在も有効だと思うのである。