複数画像レイヤー同時生成できるAI「LayerDiffuse」、MML対応音楽生成AI「ChatMusician」、高性能なリップシンクAI「EMO」など重要論文5本を解説(生成AIウィークリー)
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第36回目は、生成AI最新論文の概要5つを紹介します。 生成AIグラビアギャラリー <生成AI論文ピックアップ> ・透明画像含む複数のレイヤーをテキスト指示で同時に生成するAI「LayerDiffuse」 ・1枚の顔写真と音声から、喋って歌う頭部動画を生成するモデル「EMO」、アリババが開発 ・大規模言語モデルの計算コストを大幅に軽減する1ビットLLM「BitNet 1.58Bits」をマイクロソフトが開発 ・音楽をテキストのように扱い、音楽の理解と生成を行うAI「ChatMusician」 ・複数のLoRAを適応する画像合成法「Multi-LoRA」
透明画像含む複数のレイヤーをテキスト指示で同時に生成するAI「LayerDiffuse」
ControlNetを開発した研究者らが、潜在拡散モデルを使用して単一の透明画像や複数の透明レイヤーを生成できる手法「LayerDiffuse」を発表しました。透明度(アルファチャンネル)を含む画像を直接生成でき、複数の透明レイヤーを生成し、それらを組み合わせて複雑な画像を構築することもできます。 また、前景や背景などの特定条件に基づいたレイヤー生成も可能であり、例えば特定の背景に適合する前景オブジェクトの生成やその逆のケースも実現できます。さらに、既存の拡散モデルの品質を保持しながら透明性を追加することも可能です。 この手法は、「Latent Transparency」という技術を用いて、透明度をモデルの潜在空間にエンコードすることで、元のモデルの潜在分布を大きく変えることなく、透明度を追加し、拡散モデルの高品質を維持します。この方法により、任意の潜在拡散モデル(例えばStable Diffusion)を微調整することで、透明画像生成器に変換できます。 研究チームは100万組の透明画像レイヤーを収集し、このモデルをトレーニングしました。Latent TransparencyはStable Diffusionだけでなく、さまざまなオープンソースの画像生成器に適用可能です。また、ControlNetやLoRAなどの制御モデルとの統合も可能です。 評価実験により、97%でユーザーは既存の対応策(例えば生成後のマット化など)よりも、本手法でネイティブに生成された透明コンテンツを好むことが示されました。また、生成された透明画像の品質がAdobe Stockなどの商用透明アセットと比較しても匹敵することが示されました。
【関連記事】
- 複数画像レイヤー同時生成できるAI「LayerDiffuse」、MML対応音楽生成AI「ChatMusician」、高性能なリップシンクAI「EMO」など重要論文5本を解説(生成AIウィークリー)
- 音楽含むマルチモーダルAIモデル「AnyGPT」、AIの“パラメータ”を生成するAI「P-diff」など重要論文5本を解説(生成AIウィークリー)
- 1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説(生成AIウィークリー)
- 全てAIで生成した架空アルバムのバンドに架空ライターがインタビューした結果、新曲が生まれた。Suno AIがおもしろすぎる(CloseBox)
- 生成AIグラビアをグラビアカメラマンが作るとどうなる?第19回:ComfyUIで最新のStable Cascadeを試す+アナログ風の後処理ProPost (西川和久)