Getty ImagesがHugging Faceで「最もクリーン」なビジュアルデータを公開、データ品質の向上と期待されるAIモデルの精度アップ
AI開発におけるデータ品質問題
生成AIの急速な普及に伴い、その基盤となるデータの品質問題が浮き彫りになっている。大規模言語モデル(LLM)やその他の生成AIアプリケーションの性能は、学習に使用されるデータセットの質に大きく依存する。しかし、AIモデルの学習に低品質なデータが混入しているケースが多く、様々な問題を引き起こしているのが現状なのだ。 データ品質の問題は、単なる技術的な課題にとどまらず、AIの公平性や信頼性にも直結する重要な問題。たとえば、これまでも性別バイアスを持つ人事AIモデルや、人種バイアスを持つヘイトスピーチ検出器など、データバイアスが原因で実世界に大きな影響を与えた事例は少なくない。 データ品質の問題は多岐にわたる。選択バイアス、自動化バイアス、時間的バイアス、暗黙的バイアス、社会的バイアスなど、様々な形でデータの偏りが生じる可能性がある。また、データの重複も大きな問題だ。2022年の研究では、データの0.1%を100回繰り返すだけで、モデルの精度が半減することが明らかになった。これは、重複したデータがモデルの記憶容量を不釣り合いに占有し、データ間の関係性を一般化する能力を低下させるためだと考えられている。 さらに、AIが生成したコンテンツが学習データに混入する「モデル自己消化障害(Model Autophagy Disorder: MAD)」と呼ばれる現象も懸念されている。ケンブリッジ大学の研究チームは、AIが生成したコンテンツの割合が増加すると、モデルが保持する知識が変化し、有用性が低下する可能性があると指摘している。 こうした状況下、注目されるのが多くの高品質データを持つメディア企業の動きだ。直近ではEsquire、Cosmopolitan、Elleなどのメディアを傘下に持つHearst社とOpenAIが提携を発表したばかり。メディア企業にとっては、OpenAIのChatGPTが生成する回答に各メディアのコンテンツが参照されることで、ユーザーへの露出を高められるという利点がある。一方、OpenAIなどのAI企業にとっては、メディア企業が有する高品質データにアクセスすることで、AIモデルの精度を高められるという利点がある。 これまではニュース記事をメインとするテキストデータをめぐる動きが多かったが、今後は以下で詳述するように高品質画像や動画データをめぐる動きが活発化する見込みだ。