画像生成AIの進化が早すぎる 2024年に起きたことまとめ
2024年、画像生成AIに起きたことを振り返ってみます。今年もすさまじいペースで物事が動きました。 【もっと写真を見る】
2024年、画像生成AIに起きたことを振り返ってみます。今年もすさまじいペースで物事が動きました。今年起きたことに注目するなら、高精細化と高品質化が進む一方、一貫性をいかに実現するのかがポイントでした。一貫性技術は、動画生成AI分野の拡大をもたらし、さらに、3D化の実現までも可能性として見せはじめました。それぞれの技術はお互いに影響を与えつつ、別々に進化し、より専門化が進んでいます。この連載によく登場してくる作例のキャラクター「明日来子さん」を通じて、どのように技術変化が進んだのかを見ていきましょう。 ※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください 同じキャラクターが出せるようになった まず、2023年12月に登場したクラウド型画像生成AIサービス「Midjourney」バージョン6で写真と品質的に見分けがつかないような画像が生成できるようになりました。それで作った「明日来子(あすきこ)さん」がこの連載に登場したのが1月です。現在、Midjouneyはv6.1にアップデートし、写真的な描写はさらに得意になっています。 画像生成AIにとって大きな課題点だったのは、人物などのキャラクターの首尾一貫性をどのようにして担保するかという点でした。生成AIの特性上、結果がランダムに生成されるため、同じ顔を繰り返し生成するのが難しいためです。Midjourneyは3月に、1枚の画像から特定のキャラクターを似せて生成できる「クリエイティブリファレンス」というコントロール系の機能を搭載しました。Stable Diffusionで登場した類似画像生成機能「IP-Adapter(IPアダプター)」に似た機能を、Midjourneyに実装し、より強力に出せるようにしたものです。完全にそっくりとはいきませんが、同じ人物に近い画像が出せるようになり、それを「アニメ風」「絵画風」など様々なタッチに変更して出力できるようになりました。 その後、5月に敏腕開発者のlllyasviel(イリヤスフィール)さんがStable Diffusion向けに出したのが、画像生成時に照明効果をコントロールする技術「Imposing Consistent Light(IC-Light)」でした。これによって画像のバリエーションが出しやすくなりました。最初のバージョンはStable Diffusion 1.5ベースでしたが、10月には最新モデルのFlux.1に対応した「IC-Light V2」がリリースされています。 そして、6月に登場して業界に衝撃を与えたのが、Luma AIの動画生成AIサービス「Dream Machine」です。それまでの動画生成AIサービスには弱点がありました。人物の一貫性を維持できないという点でした。生成するとすぐに別の人に変わってしまうのです。この問題を、キーフレームという最初の画像と最後の画像とを指定することによって、途中で崩れるにしても、極端な崩壊が起きるのを抑制できるという方法です。この技術がきっかけで破綻の少ない動画を作れるようになりました。そして、動画生成AIサービス各社がこの機能をマネして実装してくるようになりました。 ▲明日来子さんの画像を最初と最後に指定して生成したもの。途中の顔は完全に崩れているのだが、5秒間という短い間ならば、なんとかごまかせている(「AI動画の品質が仕事に使えるレベルになってきた」より ) 同じ6月に出てきたのがイラスト制作用AIツールのクラウドサービス「Copainter」。下書きからの線画作成、下塗りをしたものを着彩したりといったことを画像生成AI技術によって実現するものです。高解像度化や写真を漫画の背景画像に使えそうなものに変換したりと、その後も機能充実を続けています。技術に詳しくなくても使いやすいこともあり、漫画制作に生成AIを使う人達を中心に広がっているようです。イラスト作成ツールが生成AI分野に進出しない状況が続いているため、今後もその領域に広がっていきそうです。 「Flux.1」「Imagen 3」が衝撃を与えた そして8月、画像生成AIをさらにレベルアップさせる事が起こりました。Stable Diffusionの開発者たちが独立して作った画像生成AI「Flux.1」の登場です。Stable Diffusionでは収益を上げる方法が乏しく、開発したStability AIを追い詰めていく要因となったのですが、Flux.1では、「Pro」、「Dev」、「Schnell(軽量モデル)」と3種類のモデルを展開し、性能の高いProはAPI利用に限定、オープンモデルDevについては、ユーザーにはかなりゆるい条件とする一方で、商用利用をする場合にはAPI利用を必須にするといったビジネスモデルの開拓も行いました。性能的にも、6月にリリースされながら性能の中途半端さから支持されなかった「Stable Diffusion 3(Middle)」の代替的な存在として高い支持を得ることに成功しました。 また、追加学習をさせて特定キャラクターのLoRAを作ることで、これまでの画像生成AIモデルでは実現できなかった一貫性が表現できるようになりました。Fluxは、雑なコラージュ画像であっても、i2iにかければキレイにまとめてくれるという柔軟性の高さにも特徴があり、完全に画像生成AIのハイエンドモデルを牽引する存在になっています。 同時期に出てきたのが、グーグルの新AIモデル「Imagen 3」ですね。もはや実写にしか見えないような画像が出てくるようになりました。クラウドサービスとして独自展開する企業が、自社で新規開発した画像生成AIモデルを発表するケースも、今年後半には目立ってくるようになりました。 一貫性のある動画が生成できるようになった 9月に、動画生成AIの「Runway Gen3 Alpha Turbo」に、キーフレームの始点と終点をつなぐ機能が追加されました。Runway Gen3は7月にリリースをされていたものです。Open AIが2月に発表した動画生成AI「Sora」で大きな衝撃だったのが、動画AIであっても、生成した動画の一貫性が維持できるという点でした。その後、Soraがリリースされない間に、動画生成AI各社は同様のことをどう実現できるかを競い合って開発するようになりました。そしてRunwayは、一貫性を保ちつつスムーズなアニメーションを生成できるようになったことで、他社から技術的に頭一つ抜け出しました。 ▲Runway Gen3 Alpha Turboのキーフレーム機能を使った生成した動画を複数枚組み合わせることで、明日来子さんは一貫性を維持しながら、様々な方向に顔の向きを変えている(「もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい」より) ▲すでに発表されているリップシンクモードと組み合わせると、喋らせることもできる(「リアルすぎてキモい 動画AIの進化が止まらない」より) 動画生成AIは中国系のHailuo AI、Kling、Viduといったクラウドサービスが夏頃から次々に開始され、激しい機能拡充競争が繰り広げられています。特に、中国系の動画生成AIでは、面白い動きをさせることに力点が置かれている印象がします。例えば、Hailuo AIでは「メガネをかける」といった複雑な動きも、そのキャラクターの一貫性を維持したまま生成できるようになりました。 ▲Huliuo AIで明日来子さんの画像に眼鏡を掛けさせた動画。自然に生成されている。 そして、11月にRunway Gen3に追加された「アドバンスドカメラモード」を利用することによって、1枚の画像から、様々な角度から撮影した画像を作り出すことができるようになりました。このモードを使って撮影した動画を利用することで「Postshot」というアプリを使うことで3Dガウシアンスプラフティング(3DGS)を生成できることがわかってきました。1枚の画像から、3Dデータとして扱える状態にすることが可能なのです。(参考「3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成」) ▲明日来子さんの30秒の動画をPostshotで 明日来子さんの画像から動画を作成し、3DGSのデータを作成してみました。今年の始めには1枚画像だった明日来子さんが、たった1年で、3Dデータとして扱えるようになったのです。来年には、明日来子さんが、3Dモデルとして、「Unreal Engine」といったゲームエンジンのなかでリアルタイムで動き出すようなことも実現まで到達しそうな気がします。 生成AIは“ありふれた技術”になっていく あらためて振り返ると、画像生成AIは、静止画から、動画へ、そして、3Dへとその範囲を拡大しようとしています。来年も、さらに高性能化、高品質化を続けていくことはほぼ間違いないでしょう。 画像生成AIで出せる画像の精度は、まだ人体表現など苦手な部分は残っているとはいえ、一貫性の問題を克服しつつあり、行き着くところまで行きつつあるという印象です。品質的には十分に商用利用に耐えうる水準に達しています。一方で、動画生成AIの急速な性能向上は、進んでいる最中です。生成できる時間がまだ10秒程度と限られている限界があり、これらをいかに安定的に伸ばしていくのかという競争になっていくと思われます。 また、日本国内では利活用を促進するために、生成AIに関連する国の方針の整理も進みました。文化庁「AIと著作権に関する考え方」、内閣府「AI時代の知的財産権検討会 中間とりまとめ」、経済産業省・総務省「AI事業者ガイドライン」と3つの文書が取りまとめられました。国は現行法で対処可能という方針で、実際の運用の段階に入りました。(参考「政府、生成AI推進に向けて議論を加速」) 特に、コンテンツ分野では、7月に経済産業省はこれらの3つの文書を要約して、実際の事業者が活用するためのわかりやすい参考資料として「コンテンツ制作のための生成AI利活用ガイドブック」を公開したりと、周知に努めています。来年は単なる技術革新だけにとどまらず、日本国内での利活用ケースが今年以上に増え、ありふれた技術へと一般化していくことが予想されます。 筆者紹介:新清士(しんきよし) 1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。 文● 新清士