イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃
画像生成AI「Stable Diffusion XL(SDXL)」のファインチューニングモデル、「NoobAI-XL」の登場が、画像生成AI関連の人たちをざわつかせています。生成されるイラスト風画像の性能が高いためです。 【もっと写真を見る】
画像生成AI「Stable Diffusion XL(SDXL)」のファインチューニングモデル、「NoobAI-XL(ヌーブエーアイ)」の登場が、画像生成AI関連の人たちをざわつかせています。イラスト風画像の生成性能が高いためです。ハイエンドモデルの「Stable Diffusion 3.5」や「Flux.1」への移行が始まろうとするなか、昨年8月にリリースされた旧モデルのSDXLに性能向上の余地がまだまだあることが明らかになってきたのです。 SDXLベースの画像生成AIモデル「NoobAI-XL」の性能が高すぎる NoobAI-XLの強力さは、LCM(Latent Consistency Models=画像生成AIの高速化技術)の環境で動かすとそのすごさがよくわかります。ペイントツール「Krita」用にAclyさんが開発を続けている独自プラグイン「Krita AI Diffusion」でプロンプトを設定して、雑に落書きを描いてみても、そこからしっかりとした画像が生成されます。特に強度を0.67など強めに設定すると、手足の複雑な絡みがあってもそれなりに認識し、破綻することのない画像を生成してくれるのです。この精度は、SD1.5系のモデルや、過去に人気のあったSDXLモデルの「Animagine XL」では実現できていませんでした。どうなっているのかと驚かされるレベルです。 剣を握っている女性を描いても完璧です。SDXLでは、武器と手の関係性といったものの描写は従来から苦手でしたが、NoobAI-XLではそれなりに描写できています。 このように、SDXLがリリースされて1年経って、土台としたモデルの性能が上がってきているという状況です。ハイエンドモデルとしては、8月にBlack Forest Labsの「FLUX.1」がリリースされていますが、人体については、そのまま出力すると、正面の立ったままの動きのない画像となりがちな傾向があります。アニメ系の画風で、複雑なポーズをとらせた画像生成目的であれば、NoobAI-XLの方が上かもしれません。 「Kohaku」「Illustrious」「NoobAI-XL」 では、NoobAIはどんな経緯で作られたモデルなのか。エマノンさんという方がモデルをチャートにまとめてくださっているので、参照しながら説明します。 これ作ってて知ったんだけど、noobって0.6とか0.77とかもあったのな(図からはカットしたけど) pic.twitter.com/OrebG8B8RN ― エマノン (@Emanon_14) November 15, 2024 モデルのファインチューニングには、画像とテキストをセットにして新規に追加学習させる方法と、他のモデルとを結合(マージ)する手法を組み合わせる方法があります。強力で有力なモデルが登場すると、それを土台にして多くに人が微調整(ファインチューニング)を繰り返し、様々な派生モデルが登場します。SDXLは最初の土台モデルとして様々なモデルが作られています。 特に、今年に入ってからはアニメ系の「Animagine XL(アニマジン)」系、この図にはありませんが、「Pony(ポニー)」系が流行していました。これらのモデルも様々な派生モデルが作られ、Pony系は実写系からアニメ系まで幅広く人気があります。ただ、タグ情報の学習方法が異なり、この2つのモデルは互換性が低いことが知られています。 さらに別系統として、台湾の琥珀青葉さんが開発している「Kohaku(コハク)」系モデルがあります。SDXLがリリースされた2ヵ月後の2023年10月にリリースされた「Kohaku-XL beta v5」は、150万枚の画像を使っての追加学習とマージモデルとを組み合わせた、イラスト系に強いモデルとして登場しました。 さらに、このモデルを土台にして、2024年9月に大幅な追加学習をした「Illustrious(イラストリアス)v0.1」というモデルが発表されました。開発したのは韓国ONOMA AIというウェブトゥーン用ツールを開発している会社でした。当初は公開するつもりはなく、一部ユーザーに限定してテストしていたようですが、データが発表前に流出してしまったことで、公開路線に切り替えたようです。 このIllustrious v0.1はこれまでのモデルでは実現されていなかったレベルでの高品質化をもたらしました。公開された技術レポートによると、Illustrious v0.1は750万枚の学習データが使われています。これはAnimagine XLの210万枚、土台としたモデルに近いKohaku XL Deltaの360万枚に比べても大幅に増やして学習をしていることがわかります。 また、学習時にクラウドサービスとして展開されている画像生成AIの「NovelAI(NAI、ノベルエーアイ)」の方法論を取り入れたことも明らかにされています。NovelAIは2022年10月に画像生成サービスを開始していますが、当初より土台としたStable Diffusion 1系統のなかでアニメ系の画像に突出して強いことが知られていました。この要因の一つが、画像キュレーションサイト「Danbooru」を学習データとして利用した点でした。 Danbooruにはユーザーにより登録された約800万枚の画像と、その画像が何であるのかを示すタグが登録されているのですが、画像とタグがペアになっているのでAIの学習データとして便利だったのですね。そこに、NovelAIチームが開発した独自のタグ順序付け手法を使って学習をした、強力なモデルを生み出していました。 この手法が公開されていたこともあり、Illustrious XL v0.1はNovelAIの方法論を応用し、2023年のDanbooruのデータを学習用データの整理に役立てたようです。さらに、タグだけでなく、自然言語モデルも組み合わせることによって、自然文でのプロンプト指定にも従うようになりました。 「オープンソース原則」が派生の連鎖を生む そして、ONOMA AIが公開時につけたレギュレーションには興味深い状況が追加されました。「収益化の禁止」という項目があるのですが、その内容は「クローズソースで微調整/マージされたモデルを収益化することは禁止」、「派生モデルやバリアントをオープンに公表しなければならない」、「このモデルはオープンソースでの使用を意図しており、すべての派生モデルも同じ原則に従わなければならない」というものです。 つまり、独自に追加学習モデルを開発した場合には、それを公開せずにビジネス化することは認めないというものでした。これがこのモデルの派生モデルが相次いで発表される呼び水となりました。 その有力な派生モデルとして登場したのがNoobAI-XLでした。11月に登場したこのモデルは、Laxhar Labというグループによって開発されていますが、中国のクラウド企業Lanyun Cloud(北京蓝耘科技股份)からの支援を受けており、最新のバージョンでは画像生成AI用のデータ配布サイトの米CivitAIとクラウドAIサービスのシンガポールSeaArt.aiも支援に参加しています。 学習データには、2024年10月にアップデートした最新のDanbooruのデータに、キュレーションサイト「e621」のデータを整理してHugging Faceで公開されている「e621-2024-webp-4Mpixel」という400万枚のデータセットで追加学習をしたと明らかにしています。追加学習に使った画像は約1000万枚に近いのではないかと推測できます。 そもそもこのモデル名のNoobAI-XLは、略すとNAI XLとなるため、本家のNAIの真似をして開発され、さらには追い抜く性能を目指して開発されたことはほぼ間違いないでしょう。初期のバージョンでは、人間が適切に描写されなかったものが、改善されたバージョンが公開されたり、その後、公式にモデル専用のControlNetを発表したりと活発にアップデートが続けられています。NoobAI-XL系は、Animagine XL系やPony系との互換性も弱いため、追加学習データの専用LoRAの開発も始まっています。 ユーザーの派生モデルの改造もされており、意図的に「マスピ顔(プロンプトに「masterpiece」と入力した際に生成される特徴的な顔立ち)」を出すモデルや、アニメ顔をしっかりと出すモデル、また、Ilustriousなどの他のモデルとマージしてお互いの強さを補完し合うことを目指したモデルなど、様々なものが登場しています。 さらに、NoobAI-XLの規約では、ユーザーに「マージ方法、プロンプト、ワークフローなどの作業の詳細を共有する」ことが求める条項が追加されたために、派生モデルでも開発方法の詳細が明らかにされるケースが多くなり、それがさらに派生モデルの開発ノウハウの広がりを生み出しているようです。 lIlustriousやNoobAI-XLといったファインチューニングモデルの開発には、サーバーの利用コストとして数百万円程度がかかると考えられますが、ハイエンドの基盤モデルの開発には億単位の費用がかかると考えると、まだ相対的に小さな費用で開発できます。特にアニメ系モデルは、アジア圏に人気が集中するニッチニーズのモデルです。Animagine XLやPony、Kohaku XLは個人による開発ですが、企業からの支援を受けられるアジア圏のチームを中心に開発規模の拡大が進み始めているという印象です。 一方で、NoobAI-XLで画像生成をしていて戸惑うのが、アニメの特定のキャラクターに似たような画像を簡単に出力できてしまう点です。また、Danbooruに登録されている作家名でも、その人に似たような画風を再現することが容易であるようです。LoRAといったものを使わなくても、そもそものモデル自体に一定の再現力が実現されています。NovelAIで同じ現象が起きることは以前から指摘されていましたが、NoobAI-XLは学習データの規模を大きくしたことで、さらに強力になったように思えます。 ただ、背景を中心に描画能力が過去のモデルに比べて落ちているのではないかという指摘もあります。実際、背景だけ描くと、人物に比べて描画能力は落ちているように感じられます。これは元のデータが、アニメ系の女性の画像が多いため、学習に偏りが起こり、苦手な描写が新たに生まれた可能性があるとも指摘されています。 画像生成AIの学習に使われる「Danbooru」をどう理解すべきか これらのモデルが強力になったのは、Danbooruやe621のようなキュレーションサイトのデータを学習データにしたからというのは間違いないでしょう。悩ましいのは、これらのサイトの存在をどう理解すべきかということです。 欧米圏に存在するキュレーションサイトは、PixivやX(旧Twitter)などから、ユーザーが画像を転載して独自にタグ付けをしています。Danbooruは特に日本のアニメやイラストに強いことで知られており、たびたび無断転載の問題が指摘されています。一方で、アメリカの著作権法上では、転載元が明記されているのでフェアユースという合法の概念に当たるのではないかという説もあります。他のキュレーションサイトも含め、批判を受けながらサービスの継続ができているのは、それが理由ではないかとも考えられています。 また、Danbooru自身がAI用の学習データとして利用しているのではなく、中国、韓国、台湾といった地域の個人や事業者がデータセットを作成して利用しています。各国の法律上で、キュレーションサイトのデータを学習に使った場合の位置づけは明確ではありませんが、現実として学習に使われている事実があります。さらに作成されたモデルは、米国のHugging FaceやCivitAIにアップロードされ、世界各地のユーザーがダウンロードできるという状態にあります。今のところ、これらが明確な著作権侵害に当たるという根拠は世界的に出ていません。 今は技術力をアピールするためか、IlustriousやNoobAI-XLも何を学習データにしたのかを明らかにしていますが、その状況も変わってくるでしょう。Stablity AIなどのハイエンドモデルの基盤モデルを開発している企業は、公開するメリットがなくなっているので、詳しい情報を明らかにしなくなっています。遠からずアニメ系モデルの開発企業も、その段階へと移り、何を学習したのかを明らかにしなくなると考えられます。 その一方で、画像生成AI利用者にとっては、こうしたモデルには著作権侵害のリスクがあるということを強く意識する必要があります。日本の著作権法の場合には、「類似性」と「依拠性」の両方を満たすことで、著作権侵害が成立します。「1girl」というシンプルなプロンプトであっても、データの偏りによって、何か似てしまう可能性がありうることが、Illustriousの技術レポートには書かれています。出力した結果が、何らかの画像にそっくりで意図しない著作権侵害を引き起こしてないかを、Googleレンズ等を使って確認する必要があるでしょう。もちろん、アニメ等のキャラクターを生成し、SNSに公開する場合には、二次創作イラストと同じ扱いになり、侵害リスクが大いにあることには注意が必要です。 旧世代のSDXLを土台に、今後も性能が上昇していくのは間違いない IllustriousやNoobAI-XLが、Novel AIを追い抜くほどの性能向上を引き起こした要因は、学習データ量を増やしたこと、そして効率的なタグ付けや自然言語モデルの組み合わせにより描画能力が引き上げられたためだと言えます。完全な後追い戦略が成功しています。 技術レポートによると、Illustrious XLはv1.0で学習の解像度を1024x1024から1536x1536のさらなる高解像度にすると述べています。これらは学習に必要な時間を増大させるため、コストの上昇が伴うと考えられますが、大きな効果があるとは容易に予測できます。指の描写といった弱点は、現在のモデルでもかなり克服されていますが、さらに適切に描写できるようになると考えられます。SDXLは技術情報が公開されているため、この方法論もまた後追いされることになるでしょう。 すでに旧世代のモデルになりつつあったSDXLを土台にしていても、今後も、性能の上昇が引き起こされ、より精度の高いアニメ系モデルがアジア圏から登場してくると考えて間違いないと思われます。 筆者紹介:新清士(しんきよし) 1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。 文● 新清士