生成AIグラビアをグラビアカメラマンが作るとどうなる? 第22回:Stable Diffusion 3リリース。ComfyUIを使いAPI経由で生成(西川和久)
早速生成!
この状態でPromptに「cat」、Negative Promptに「worst quality, low quality」が入っているのでそのまま生成したのが以下の猫の画像。 次に、「(best quality:1.2),photo of a japanese woman, 20 years old, (off shoulder sweater:1.2), short hair, standing」。 Nodeを見るとmodelをsd3とsd3 turboの切り替えができる。 また特徴として文字が描画出来るとあったので「photo of a japanese woman, 20 years old, standing, maid cosplay, at maid cafe, name is "Techno Edge"」としたところ、それっぽい場所にカフェ名のTechno Edgeと入った! いずれも解像度は2:3で832x1,216px。これはStable Diffusion XLと同じだ。そう考えると、Stable Diffusion XLは当初、純正のModelだと人肌がツルツルでイマイチだったが、そこはクリアしているのが分かる。 今後、普通にHugging FaceやCivitaiにModelが掲載されれば、いろいろなリアル系やイラスト系のModelが出て面白そうだが、はたして一般家庭用最大VRAM容量の24GBで学習できるのだろうか? こればかりは実際ものが出てこないと分からない部分でもある。 さてAPIを使った場合の最大の弱点は、筆者が好んで出しているグラビア系=肌色過多は、APIのリターン時に”content_moderationエラー” (不適切な内容をモニタリングエラー) となるか、ボケた画像が出てくる。 左側と同じPromptでたった1枚得るのに6回ほどエラーもしくはボケた画像が出てきた。最近、LLMも含め、海外のこの手のサービス(システム)は、センシティブなものに過激なほど敏感。そのうち人がらみは何も出なくなるのでは!?(笑)。
【関連記事】
- 生成AIグラビアをグラビアカメラマンが作るとどうなる? 第22回:Stable Diffusion 3リリース。ComfyUIを使いAPI経由で生成(西川和久)
- 生成AIグラビアをグラビアカメラマンが作るとどうなる?第21回:ComfyUI応用編。ControlNetでポーズ・構図を指定する (西川和久)
- 生成AIグラビアをグラビアカメラマンが作るとどうなる?第20回:MシリーズMacでもComfyUI+フロントUIが動く!ComflowySpaceの使い方(西川和久)
- AI同士が教え合い質を高めるMicrosoft開発オープンLLM「WizardLM-2」、外で撮影した動画→実世界3Dゲームに変換するAI「Video2Game」など重要論文5本を解説(生成AIウィークリー)
- 生成AIのためのGPU投資、さくらインターネットとKDDIが1000億円規模の投資を発表。経済産業省の認定プログラムを受け