生成AIおじさんをおじさん好きが作るとどうなる?(第2回) なぜおじさんを生成するのか
おじさんは美しくない
画像生成AIは魔法の道具ではありません。その仕組みに解明できていない部分はあっても、無から画像を生成するわけではないのです。今広まっている画像生成にも手法は幾つかありますが、大量の既存の画像を解析し、その表現が持つ何かしらの特徴を蓄積し、それを元に再表現を行うという点は共通しています。なおその解析等の処理は一般的に「学習」と呼ばれています。 生成AIグラビアギャラリー 生成できる表現が解析したデータに基づく以上、柔軟で広範囲な生成を可能にするには大量の画像が必要です。そうした大量の学習用データを集めたものはデータセットと呼ばれます。たとえばStable Diffusionが利用していることで有名なLAIONという団体の提供するデータセットは、多いもので数十億件の画像の情報を含みます。
データセットに含まれない表現
データ量は多いほど良いとは限らないようですが、少なすぎても十分な表現力を持てません。そして存在しないデータはそもそもまともに扱えません。 たとえばSDXL DPO Turboは食材としてもありふれた植物の「茗荷」を生成できません。"myoga"というプロンプトで生成すると、このような画像が生成されます。 これは神仏の加護を指す「冥加」からきたものでしょうか。表現を変えて"japanese ginger"や"myoga ginger"、学名の"zingiber mioga"などに変えてもやはり生成できません。 こうした欠落は、茗荷を表現した画像がデータセットに含まれていない、あるいは含まれていても茗荷であると正しくラベリングされていないことから生じます。茗荷という日本以外でほとんど食べられない植物は、数十億枚の巨大なデータセットからでも抜け落ちるのです。
データセットの偏り
データセットに含まれる画像は、同一の概念になるだけ多くの異なる表現があるのが望ましいです。ところがそれにより、表現の偏りが生じます。たとえば多くの画像生成AIは、日本の伝統的な寿司をまともに描けません。 これは"traditional sushi"として生成したものです。"edomae sushi"などのプロンプトを入力しても同様で、サーモンや裏巻きが頻出する、外国で普及しているイメージの寿司が描かれてしまいます。"kohada"や"anago"などの素材を指定しても反映されませんし、英語名や学名に変えても同じです。 恐らく寿司はあまりに世界で普及したために、存在する寿司を表現した画像の割合が、日本国内よりも他国の方が多くなっているのでしょう。伝統的な寿司の画像が"sushi"という語に少量しか結びついていなければ、そこにあった表現が出力される可能性は低くなります。