Stable Diffusionとその系譜
本コーナー「開発者と読み解くAIの世界」では、AIアプリ開発に携わるエンジニアより寄稿いただき、開発者目線でみる生成AIの面白さや活用法、開発現場のリアルをお伝えします。 【画像】Stable Diffusion 1.5で生成した画像。写実的だが人物の手指が崩壊している 昨今は生成AIブーム真っ只中ですが、生成AIはLLMだけを指す言葉ではありません。LLMと同じくらい、もしくはそれ以上のスピードで画像生成AIも急速に進化を遂げています。 なかでも、OSSモデルである「Stable Diffusion」は最もよく利用されている画像生成AIのひとつです。しかし、Stable Diffusionには非常に多くの派生モデルが存在し、それぞれの特性やライセンス形態をふまえて利用することが重要となります。 そこで、この記事では画像生成AI利用時のポイントを踏まえた上で、Stable Diffusionとその系譜に連なる派生モデルについて解説します。 ◆ 画像生成AI利用時のポイント Stable Diffusionを含め、現在はさまざまな画像生成AIが発表・公開されています。それぞれ特性が大きく異なるため、実際に画像生成AIを利用する場合は目的に沿ってモデルを選定する必要があります。 下記に画像生成AIを利用する際のポイントをまとめました。 ■ 生成画像のスタイル 画像生成AIによって、生成できる画像のスタイルが大きく異なります。大まかに分類すると、実写のような画像の生成が得意なモデル、イラスト画像が得意なモデル、両対応のモデルが存在します。しかし、それぞれの分類の中でも得意とする領域が微妙に異なる場合が多々あります。 例えば、同じイラスト画像を得意とするモデルであっても、少し写実的で幻想的な画像を得意とするモデルもあれば、アニメ的な表現のイラストを得意とするモデルもあります。あらゆるジャンルのイラストを生成できるモデルもありますが、特定領域に特化したモデルと比べるとクオリティが下がる傾向があります。 ■ モデルが学習している概念 画像生成AIの一般的な使い方では、テキストのプロンプトで生成したい画像の特徴を記述しますが、モデルによってプロンプトとして有効な単語が異なります。特定のスタイルやテーマに特化したモデルは、その分野に関連する単語をより効果的に理解し、反映することができます。 ■ 出力の安定性 画像生成AIの出力の安定性は、モデルや生成時のパラメーターによっても異なります。特に一部のモデルでは同じプロンプトでも人間の手足など、細かい領域の生成が安定しないこともあります。 ■ 計算コスト 最新の画像生成AIは高性能ではありますが、それに伴って計算コストも相応に増大しているものが多いです。一方で、初期の生成AIモデルも一定のクオリティで画像を生成できるため、ビジネス的には計算コストとクオリティのバランスを見て利用するモデルを検討することが重要になってきます。 ■ ライセンス 特にOSSモデルを利用する場合に要注意なのがライセンスです。Stable Diffusionを含む、多くの画像生成AIはオープンソースとして提供されていますが、商用利用や再配布に関するライセンス条件はモデルによって異なります。 例えば、Stable Diffusion自体は倫理的な使用方法であれば、基本的に商用利用もOKとなっていますが、Stable Diffusionを調整して作成したモデルの中には商用利用に制限があったり、商用利用不可のものが数多く存在します。 加えて、派生モデルと派生元モデルのライセンスが矛盾していないかにも細心の注意を払う必要があります。というのも、一部のモデルには派生モデルを作成して公開する際にライセンスを継承するように指定しているものが存在します。しかしながら、実際には元となったモデルのライセンスから内容が一部変更されているモデルも多々公開されています。 また、そもそも派生元になったモデルが明示されていないこともあり、その場合、ライセンスの矛盾がないかをモデルの利用者側で確認することは不可能に近いです。 画像生成AIのライセンス事情はこのように複雑化しているため、特にビジネス利用の場合は権利関係がはっきりしているモデルを使うことが求められます。 ■ その他 上記であげたポイント以外にも、プロンプトの記入スタイル、インペイント(画像の一部分のみを再生成するタスク)が可能か、ControlNet(画像生成AIと同時に使用することで、さらに詳細に生成画像を制御することができる)に対応しているか、といったポイントも存在しますが、紹介しきれないので今回は割愛させていただきます。 ◆ Stable Diffusionの登場と発展 2022年に「Midjourney」、「Stable Diffusion」といった画像生成AIが発表されて以降、その生成画像のクオリティの高さから急速にそれらの画像生成AIの利用が広まりました。実際、画像生成AIがクリエイティブ制作の現場で使われる事例も出てきており、今後も画像生成AIの活用がますます盛んになっていくことが予想されます。 特にStable Diffusionはそのオープンソース性と高いカスタマイズ性から、多くの開発者やクリエイターによって活発に派生モデルが開発され、さまざまな用途に特化したモデルがHugging FaceやCivitaiといったサイトで公開されています。また、Stable Diffusion自体もアップデートを重ねているため、それぞれのバージョンごとに派生モデルが存在する状況となっています。 以下では代表的なバージョンを紹介します。 ■ Stable Diffusion 1.5 2022年に登場した512×512ピクセルの比較的低解像度の画像を生成するモデルです。 このバージョンでは、人物の手足がおかしな結果になりやすいといった弱点があります。しかしながら、最も初期の頃のモデルゆえに有志によるカスタマイズが最も充実したバージョンとなっており、特定のスタイルや被写体に特化した画像を生成する際の選択肢が豊富です。また、モデル自体も軽量であるため、高速に画像を生成することが可能です。 ■ Stable Diffusion XL 2023年に登場した1024×1024ピクセルの高解像度画像を生成できるようになったモデルです。 Stable Diffusion 1.5時点では単語単位でしかプロンプトを理解できませんでしたが、XLになり大幅にプロンプトの理解力が向上しました。一方で、ある程度改善はしたものの、このバージョンでも人物の手足の描写が苦手という弱点は残っています。しかし、最近はこれらの弱点を克服した派生モデルも現われ始めています。 ■ Stable Diffusion 3.5 2024年に登場した1024×1024ピクセルの高解像度画像を生成することが可能なモデルです。 XLからの進歩として、テキストを含んだ画像を生成できるようになり、画像のクオリティも向上しています。同時期に発表された画像生成モデル(Flux.1など)と比べると多少性能は低いものの、それらと比べ高いカスタマイズ性を備えています。しかしながら、出始めたばかりなこともあり1.5やXLと比べると派生モデルは少な目です。また、商用利用についても少し制限が強くなっており、年間売上100万ドル以上の企業が利用する際にはエンタープライズライセンスの取得が必要となりました。 ◆ Stable Diffusion XLの派生系 現時点でのStable Diffusionの最新バージョンは3.5ですが、旧バージョンのStable Diffusion XLは現在も派生モデルの開発が盛んに行われています。 理由はさまざまにあると思いますが、筆者はオリジナルのモデルにあった手足の描写が苦手という弱点を改善・克服した派生モデルが登場し、生成画像のクオリティと計算コストのバランスが非常に高いレベルで実現できるようになったことが主因ではないかと考えています。 そこで、前述した画像生成AI利用時のポイント、特に商用利用におけるライセンスの制約を踏まえつつ、Stable Diffusion XLの派生モデルをいくつか紹介します。 ■ Real Dream 写実的な描写が得意なモデルです。 このモデルはStable Diffusion XLからライセンスが変更されておらず、比較的自由に商用利用が可能です。にもかかわらず、一見して実写と区別がつかないクオリティの画像を生成できます。 注意が必要な点として、Stable Diffusion XLをベースとしたバージョンと後述するPony Diffusionをベースとしたバージョンが存在します。Real Dream自体のライセンスでは倫理的な範囲での商用利用は制限されていませんが、Pony Diffusionは派生モデルに対しても商用利用を制限するようなライセンスとなっているため、ビジネス利用ではStable Diffusion XLをベースとしたバージョンを利用する、またはPony Diffusionのライセンスに従っての使用が無難です。 ■ Pony Diffusion 2024年の初頭に登場したアニメイラストの生成が得意なモデルです。 このモデル自体はアニメイラスト用途に特化していますが、このモデルをベースにした写実的な描写が得意なモデルも数多く存在しています。特に手足の破綻が改善されており、クオリティが高い人物画像を安定して生成することを可能にしています。そのため、このモデルとさらにここから派生したモデル群がStable Diffusion XLの系列の中でも人気となっています。 一方で、かなり特殊なデータセットによる学習が行われているため、プロンプトの互換性が低くなっている、学習できていない概念が多いことがネックです。 ライセンス上の注意点として、このモデルを使って開発元に無許諾で画像生成を行うサービスを商用に提供することは禁止されています。一方で、生成した画像はクレジット表記が必要なものの、商用利用については許諾されています。 ■ Illustrious XL 2024年の9月に登場したアニメイラストの生成が得意なモデルです。 Pony Diffusionベースのアニメ系モデルと同等のクオリティのイラストを生成可能で、加えて版権キャラクターの画像生成も得意としています。Stable Diffsuion XLとのプロンプトの互換性も比較的高く、このモデルとその派生モデル群がイラスト画像生成の新たな定番となっています。 しかしながら、版権キャラクターの生成が得意ということは、意図せず似たキャラクターを生成してしまい、著作権侵害となる可能性もあります。このモデルに限らずではありますが、生成画像を公開する場合は著作権侵害に該当しないか要チェックです。 商用利用に関しては、このモデルをベースとして調整・学習したモデルの重み(モデル内部でのデータの加工、変換を調整するパラメーター。ウェイトとも呼ばれる)を非公開にしたまま収益化を行うことが禁じられています。調整・学習を行った方法も含めてモデルを公開する必要があるため、注意が必要です。(ただし、独自に調整・学習したモデルでも、生成した画像を商用利用することは禁止されていないようです) ■ Noob AI XL 2024年の10月に登場したIllustriousをベースとしたアニメイラストの生成が得意なモデルです。 Illustriousよりも新しいデータを追加で学習しており、プロンプトで理解できる概念が増加しています。こちらもIllustriousと同様、イラスト画像生成の新たな定番となっています。 しかしながら、Illustriousとは異なり、Noob AIは商用利用が完全に禁止されています。そのため、画像生成AIのビジネス利用を行う際は、IllustriousベースとなっていてもNoob AIからの派生でないかチェックする必要があります。 ◆ 終わりに:できることだけでなくライセンスにも要注意 この記事ではStable Diffusionとその系譜に連なる各種モデルを紹介しました。 同じStable Diffusionといえども、バージョンや派生モデル次第で得意領域やライセンスの内容まで大きく異なることが伝わっていれば幸いです。特に商用利用においては、OSSモデルであっても、ライセンスをよく確認しないと思わぬリスクを抱えることになってしまいかねません。 一方で、画像生成AIはStable Diffusion系列に限らず、日々さまざまなモデルが公開されており、今後ますます活用が進むと思われます。ビジネスにおいては、ライセンスに注意しつつも、画像生成AIの最新動向をキャッチアップして活用方法を検討していくことが重要になるのではないでしょうか。 ■ 著者プロフィール:伊藤 光祐 名古屋大学大学院 情報学研究科を修了後、KDDI傘下のデータ分析会社であるARISE analyticsに新卒入社。位置情報分析、生成AIソリューション開発に従事した後、2024年9月にAlgomaticへ参画。現在は最新AIモデルを社会実装するべく、機械学習テックリードとして研究開発とAIソリューション受託開発に従事。 ・株式会社Algomatic:https://algomatic.jp/
窓の杜,伊藤 光祐