Open AI「Sora」やStability AI「SD3」など、画像・動画生成AIの著しい進化の背景にある「Diffusion Transformers」とは?
Open AIやGoogleなどといった競合に対抗するべく、Stable Diffusion 3(SD3)を発表したStability AI。最新かつ最強の画像生成AIモデルとされているSD3は、「Diffusion Transformers」に基づいた新しいアーキテクチャを採用し、さまざまなハードウェアで動作する。このDiffusion Transformersとはどのようなアプローチなのだろうか。
2022年には存在していたDiffusion Transformers
今話題となっているDiffusion Transformersそのものは、2022年夏にAIリサーチ研究のシーンに登場したAIモデルアーキテクチャ。ニューヨーク大学のコンピュータサイエンス教授のXie氏が、当時MetaのAIリサーチラボでインターンをしていたPeebles氏(Xie氏がメンター)と共に、機械学習上の2つの概念「Diffusion」と「Transformer」を組み合わせたものだ。 Open AIのDALL-E3などに代表される、今日のAI由来のメディア生成のほとんどが画像や動画、スピーチ、音楽、3D、メッシュ、アートワークなどの出力でDiffusionプログラムに依存している。 Diffusionとは拡散という意味があり、画像などといったメディアに認識できなくなるまで「ノイズ」を加え、画像が完全にノイズ化するまでこれを繰り返すことによって、ノイズ化されたメディアのデータセットを構築する。 この過程を学習したDiffusionモデルは、逆にノイズを徐々に取り除き、段階を経てメディア(新画像)の出力を学ぶというもの。また、通常のDiffusionモデルのバックボーンとなるのがU-Netと呼ばれるもので、除去すべきノイズの推定を学習するものの、複雑で特別にデザインされたモジュールであるために、Diffusionパイプラインを大幅に減速させてしまう特性がある。
ニューラルネットワークの一種であるTransformerは、2017年に登場。複雑な推論タスクの処理に使われるアーキテクチャで、GPT-4やGemini、ChatGPTにも使用されているモデルだ。 最も特徴的なものがAttention機構と呼ばれるもので、インプットされるすべてのデータ(Diffusionでは画像ノイズ)を他の全インプットデータと関連性を評価して、新たな生成のためにデータを引き出すという仕組み。 このAttention機構によって、Transformerが他のアーキテクチャモデルよりもシンプルになるばかりでなく、並列化も可能に。つまり、計算処理を並列化できるため、大量のデータを高速に計算できるというもの。大規模なデータセットを取り扱う上で、このスピードと処理能力は非常に有用である。 また、幸運にもDiffusionモデルのバックボーンでありながら、重荷となっていたU-NetをTransformerに置き換えることが可能であり、効率とパフォーマンスを大幅に向上させられることは大きい。