Open AI「Sora」やStability AI「SD3」など、画像・動画生成AIの著しい進化の背景にある「Diffusion Transformers」とは？

4/27(土) 6:04配信

画像・動画生成AIの著しい進化の背景にある「Diffusion Transformers」とは？

Open AIやGoogleなどといった競合に対抗するべく、Stable Diffusion 3（SD3）を発表したStability AI。最新かつ最強の画像生成AIモデルとされているSD3は、「Diffusion Transformers」に基づいた新しいアーキテクチャを採用し、さまざまなハードウェアで動作する。このDiffusion Transformersとはどのようなアプローチなのだろうか。

2022年には存在していたDiffusion Transformers

今話題となっているDiffusion Transformersそのものは、2022年夏にAIリサーチ研究のシーンに登場したAIモデルアーキテクチャ。ニューヨーク大学のコンピュータサイエンス教授のXie氏が、当時MetaのAIリサーチラボでインターンをしていたPeebles氏（Xie氏がメンター）と共に、機械学習上の2つの概念「Diffusion」と「Transformer」を組み合わせたものだ。 Open AIのDALL-E3などに代表される、今日のAI由来のメディア生成のほとんどが画像や動画、スピーチ、音楽、3D、メッシュ、アートワークなどの出力でDiffusionプログラムに依存している。 Diffusionとは拡散という意味があり、画像などといったメディアに認識できなくなるまで「ノイズ」を加え、画像が完全にノイズ化するまでこれを繰り返すことによって、ノイズ化されたメディアのデータセットを構築する。この過程を学習したDiffusionモデルは、逆にノイズを徐々に取り除き、段階を経てメディア（新画像）の出力を学ぶというもの。また、通常のDiffusionモデルのバックボーンとなるのがU-Netと呼ばれるもので、除去すべきノイズの推定を学習するものの、複雑で特別にデザインされたモジュールであるために、Diffusionパイプラインを大幅に減速させてしまう特性がある。

ニューラルネットワークの一種であるTransformer

ニューラルネットワークの一種であるTransformerは、2017年に登場。複雑な推論タスクの処理に使われるアーキテクチャで、GPT-4やGemini、ChatGPTにも使用されているモデルだ。最も特徴的なものがAttention機構と呼ばれるもので、インプットされるすべてのデータ（Diffusionでは画像ノイズ）を他の全インプットデータと関連性を評価して、新たな生成のためにデータを引き出すという仕組み。このAttention機構によって、Transformerが他のアーキテクチャモデルよりもシンプルになるばかりでなく、並列化も可能に。つまり、計算処理を並列化できるため、大量のデータを高速に計算できるというもの。大規模なデータセットを取り扱う上で、このスピードと処理能力は非常に有用である。また、幸運にもDiffusionモデルのバックボーンでありながら、重荷となっていたU-NetをTransformerに置き換えることが可能であり、効率とパフォーマンスを大幅に向上させられることは大きい。

次ページは：Soraのデモ版が見せたAIの進化の速度

1/4ページ

Yahoo!ニュース

Open AI「Sora」やStability AI「SD3」など、画像・動画生成AIの著しい進化の背景にある「Diffusion Transformers」とは？

2022年には存在していたDiffusion Transformers

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）