画像生成AIに照明革命 日本と世界で同時に“神ツール”登場
画像生成AIにより、背景に合わせた照明効果を自動的につける新技術「ICライト」は驚きだった。さらに面白いのは、同様の技術的出自をもつツールが日本でも生まれており、そこから技術的に派生して広がっていることだった。 【もっと写真を見る】
5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール(lllyasviel)さんが発表した「ICライト(Imposing Consistent Light、印象的な一貫的なライト)」が盛り上がりました。入力した画像をもとに、後から指定した照明効果を踏まえた画像を生成する技術です。 画像生成AIで照明効果がつけられる「ICライト(IC-Light)」 発表された学習済みモデルは、「ライトを指定すると、キャラクターのデータに合わせてテキストのプロンプトに合わせて独自に背景を生成するもの」「キャラクターとライトの影響を加味して、別の背景画像と合成するもの」の2種類があります。これは2000年にSIGGRAPHで発表された「Light Stage」という手法の流れ。当時は人の顔に様々なライトを当てるために、全方向からの照明を当ててデータを収集し、その反射を計算式にすることで、光の当たり方を計算することでレンダリングをできるようにするというものでした。2021年にはグーグルリサーチが、ディープラーニングのフレームワークを利用して同じようなことを実現する方法を発表しています。 今回のイリヤさんのものはStable Diffusionのベース技術であるディフュージョンモデル(拡散モデル)を使い、ControlNetの制作技術と合わせながらトレーニングモデルを開発して、より手軽に扱えるようにしたことが革新的です。 IC-Lightはかなり性能が高く、いろんな人がお試しで作例を上げている状態です。実際にデモページで、この連載ではおなじみのキャラクター「明日来子」さんの画像を作ってみました。1枚目に、元となるキャラクターの画像を用意し、2枚目に任意の背景を設定。そこから生成するだけで、キャラクターを切り抜き、背景のライトに合わせてライティングした画像ができあがりました。髪の毛など完全に抜けていない部分は残っていますが、ほんの20秒程度待つだけで、この画像が出てきます。 いずれ「照明をコントロールするAI技術は出てくるよね」と言われていたところが本格的になってきたなという印象です。現時点でも非常に水準が高く、応用範囲が広いということで注目されています。 現在は専用のアプリ環境として公開されていますが、学習済みモデルが公開されていることもあり、他のユーザーによって画像生成AI「Stable Diffusion」で使うための動作環境「ComfyUI」向けのモデルや、「A1111」用の拡張機能がさっそく開発されています。特に使いやすいのがkijaiさんの「ComfyUI-IC-Light」。これは「KJNodes」というノードを組み合わせることで、ライトの方向や色、強さを簡単にできる仕組みが整えられています。 ComfyUI環境でおもしろいのが、AnimateDiffの環境と組み合わせることで、ライトの位置を動的に変化させた動画を作成できること。下からスポットライトを当てるとか、ネオンの照明を光らせるといったことが簡単にできます。 これにより、非常に美しい画像を作ったり、広告表現の可能性を提案する方も登場してきています。今後、テクニックのひとつとして定着していくと考えられます。 lllyasviel氏が公開した、IC-Light(Imposing Consistent Light)を使ってみました。 IC-Lightを使用したメイキングも次に投稿します。(正直IC-Lightは大変驚きました。)#AIart #ICLight #midjourney #DALL・E 盤子の秘境(平行世界)探検 pic.twitter.com/qbd9AkGWIK ― 銀河盤子 (@GingaBanko20XX) May 13, 2024 まぁ、つまるところイリア氏のこのツール何ができるってAIイラストの枠を超えて自社製品のプロモーションをこうやってできるんですよ。 pic.twitter.com/7Ars4cU4Ak ― おれおん (@oron1208) May 8, 2024 日本では漫画向けの陰影付けができる「AI-Assistant」登場 そして興味深いのは、ほぼ同じタイミングで、日本の開発者を中心に、照明に関連する画像生成AIの開発が進められていたことです。イノベーションが進んでいる最中には、まったく違う経緯で類似する技術が開発されていることがありますが、まさにそのような状況がこの分野でも起きました。とりにくさんが開発しているお絵描き補助AIアプリ「AI-Assistant」というアプリです。 AI-Assistantは、IC-Lightとは異なり、1枚の線画からマンガに使えるような「アニメ風の塗り」を実現する画像を作ることを目的としていたもの。画像生成AIはランダムで画像を生成するため、毎回意図しなかった塗りやライト位置で画像が生成されることになります。これを制作者の意図通りにコントロールできないかということが狙いでした。 方法としては、画像生成AIに色がついた画像の状態で元画像を入力し、それをControlNetのひとつ「Canny」で線画化して、白黒画像を出します。それを着彩し、ノーマルマップの画像にすることで、照明効果をつけられる画像にします。そして、これをライティング設定と合わせると、アニメ塗り風の白黒画像が得られるようになるというものです。 AI-Assistantができるまでにはいくつかの経緯がありました。まず、とりにくさんは4月に、線画からノーマルマップを生成し、照明処理を施した画像を生成できる「Line2Normalmap」を開発します。 線画から疑似3D画像を出力するアプリ『Line2Normalmap』&それをライティングするアプリ『NormalmapLighting』公開!|とりにく @tori29umai#notehttps://t.co/mxYY5Vqk6Y おかげ様でフリー公開!インストール簡単なAIアプリです!CUDA対応のPCなら動きます。 pic.twitter.com/825kgNmiMw ― とりにく (@tori29umai) April 5, 2024 さらにその後、かたらぎさんが作った、白黒線に着彩するControlNet「ControlNet-LineartXL」を応用し、線画からの画像出力の精度を引き上げることに成功。それをとりにくさんがアプリに組み込み、線画とノーマルマップとライト情報を組み合わせることで、最終的なマンガ的な画像の出力を可能とするAI-Assistantが誕生したというわけです。 ControlNet lineartXLをhuggingfaceにて公開しました! 画像は手描き線画色塗り(上)と私が教則本を見て塗った絵Lineartで再生成(右)したものになります。 ↓こちらから一般向け用フルサイズ(2.5GB)とAnimagineXL3.1専用のLoRAバージョン(400MB)をDLできます。https://t.co/zqoNNxLpzmpic.twitter.com/9ItjQYkOPv ― かたらぎ (@redraw_0) May 11, 2024 ノーマルマップは、オブジェクトの表面の凸凹をシミュレートするため、各ピクセルに法線ベクトルの方向を割り当てる技法。最初は3D映像でレンダリングする技法でしたが、ControlNetの登場時、ディフュージョンモデルを使ってトレーニングする方法が開発されました。この手法の大きなメリットは、ノーマルマップのデータを参照することで、光源の位置を自由に変えられること。AI-Assistantでは、光源位置を自由に変更し、それを反映した漫画風の画像を生成することができます。 とりにくさんはこうしたツールを作り、漫画を描く人にサポートする技術を提案しています。5月27日にはAI-AssistantV2の一般公開が始まり、線画への忠実度がアップしたり、影の種類が増加するなど、様々な機能強化がなされています。 二次元画像を“三次元”にする技術に派生 そしてさらに、ここにも応用例が出てきています。toyxyzさんが発表した、「Line2Depth」というLoRAです。 これは、かたらぎさんの技術を参考にして、アニメ塗り専門のControlNetのDepth(深度)を生成しようという試みです。一般的に深度生成をする場合には、写真などを使って学習します。しかし、写真が学習元であることもあり、「Marigold」といった性能の高い深度アルゴリズムでも、アニメ系の2D画像では、うまくDepthを生成することができませんでした。そもそも立体感が存在しないものなので難しいのも当然です。 ところが、Line2Depthはその問題を解決し、アニメ的な2D画像にきちんと奥行き感のある深度データを作ることに成功したのです。キャラクターデータを使って学習させていることから、背景に対しては深度情報を正しく生成できないという問題はあるのですが、これまでとは一線を画するほどにディティールのある深度情報画像が生成できます。 深度情報は、立体視環境のデータとしても扱えるので、作成したデータを裸眼立体視デバイスの「Looking Glass Portrait」に出力してみました。動画でもはっきりと、顔や体のラインが立体化しているのがわかると思います。これはMarigoldの出力データでは、もっと平板になってしまうのでここまで立体感がはっきりと出ません。 Line2Depth @toyxyz3 さんので既存のアニメ風画像用のDepthを作り #LookingGlassPortrait に出力してみた。アニメ風画像を立体視で出すのは過去最高レベルの立体感。SD Webui Forgeで作成 pic.twitter.com/AtgUFgtPSe ― 新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) April 17, 2024 △筆者のLooking Glass PortraitにLine2Depthで生成した画像を表示した状態 当然、この情報は3D情報として組み込んでいくことができるので、3Dソフトにも組み込めます。まだまだ、潜在的な応用範囲の広さを予感させる技術でもあります。 画像生成AIの革新が“ホビー”から生まれている 興味深いのは、AI-Assistantをめぐる技術発展は、専門の研究者から登場したのではなく、在野のホビーユーザーが中心となって生み出されたということです。論文や学会といった場で発表されないために、情報の伝播には限界はあるのですが、それでも、インターネットを通じての技術革新が進み、新しい表現方法の発見が進められています。 画像生成AIは、単純に画像を生成するという技術は、すでにありふれたものになりつつあります。ControlNetやLoRAの開発手法や学習手法の確立が進んできたことで、よりポストエフェクト的な効果の開発に広がりつつあります。AI利用者の表現の選択肢の広がりがさらに進んできています。より複雑な表現を求める利用者と技術者とのキャッチボールによって、技術の成長が続いています。 筆者紹介:新清士(しんきよし) 1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。 文● 新清士 編集●ASCII