Stable Diffusionの文字がちゃんと描ける新バージョン「SD3」、APIを組み込んで検証した
Stability AIからStable Diffusionの新しいバージョン「Stable Diffusion 3」がAPI限定で公開されました。アプリケーションに組み込んで特徴やコストなどを検証しました。 生成AIグラビアギャラリー
Stable Diffusion 3の概要
「Stable Diffusion 3(SD3)」は画像生成の代表的なプロダクトであるStable Diffusionの、SDXLに続く最新バージョンです。 ■基本的性能の向上 全体的に表現力が向上し、プロンプト(生成する画像の指示)に対するより高い忠実度や、複数の被写体が混在する表現の向上、高解像度での適切な生成が謳われています。 合成キャプションを用いた学習や、3つのテキストエンコーダの組み合わせなどアーキテクチャを変更し、モデルサイズも8B(80億パラメータ)まで拡大。審美性・プロンプト忠実性・タイポグラフィの3つで取ったベンチマークでは、Midjourney v6やDALL-E 3など多くの競合を上回るとしています。 論文に掲載された例やSNSなどでのサンプルを見ると、たしかに複雑なプロンプトでより意図に沿った出力ができているようです。画像生成の普及初期に「呪文」などと呼ばれた特殊なプロンプトは不要になり、より自然な表現で指示できるようになっていることは、利用の広がりにつながる重要な発展です。SDXLなど以前のバージョンでもそうした傾向にありましたが、SD3では更に改善しています。LLMなど他の生成AIとの組み合わせて利用する上でも、生成したい表現と指示の互換性が高まるのはとても嬉しい点です。 ■文字表現の強化 SD3の大きな特徴として、タイポグラフィ、つまり文字の表現力向上が挙げられています。Stable Diffusionは従来文字を描くのがかなり苦手でした。単純な「Aという文字」という指示ですらまともに表現できないケースが大半でした。 テキストと画像に異なるモデルを用い、内部的にある種のマルチモーダルを採用したことで、SD3では文字表現が大幅に強化されました。論文には画像に文字表現が違和感なく溶け込む例が多数掲載されています。 文字表現という性能への注力は、画像生成の用途を大きく広げる可能性に期待したものかもしれません。画像生成の商業利用を考えると また文字の表現は、画像同様視覚的なものでありながら、写真やイラストとは異なる扱いがなければ正しく扱うのが難しい要素です。これは画像生成AIが多数の画像を解析してその表現を蓄えることと、文字として破綻しない表現を維持することの間に乖離があるためと考えています。文字は人間にとって単なる視覚表現を超えた、画像の範疇の外に正しさを持っています。 今回文字と画像に異なるモデルを採用し、それらを混ぜ合わせることでタイポグラフィが向上したことは、画像の範疇の外に正しさを持つ同様の視覚表現にも適用できるかもしれません。たとえば正確な線、完全な白ベタ、図面や楽譜、機械や建物などなど、記号や意味的な正しさが求められるものに、異なるモデルを内部的に統合することで改善が可能ならばと期待します。
【関連記事】
- Stable Diffusionの文字がちゃんと描ける新バージョン「SD3」、APIを組み込んで検証した
- 手のひら投影型AIデバイス「Humane Ai Pin」で未来っぽい体験を始めた。動画付きファーストインプレッション
- 米軍、AIドッグファイトに成功。AI自律飛行のX-62A VISTA試験機が有人のF-16との模擬空中戦で防御と攻撃
- 生成AIグラビアをグラビアカメラマンが作るとどうなる? 第22回:Stable Diffusion 3リリース。ComfyUIを使いAPI経由で生成(西川和久)
- 生成AIのためのGPU投資、さくらインターネットとKDDIが1000億円規模の投資を発表。経済産業省の認定プログラムを受け