最新の画像生成AI「FLUX1.1 [pro]」違いは? Midjourney、DALL-E、Imagen 3、Stable Image Ultraと比較
最新の画像生成AI、FLUX1.1 [pro]を検証。競合にあたるMidjourney、DALL-E、Imagen、Stable Image Ultraと比較した。 【もっと写真を見る】
BlackForestLabs(以下BFL)は10月2日、同社の画像生成AIモデル「FLUX」シリーズの最新版となる「FLUX1.1 [pro]」を発表した。 これにより、現在BFLが提供するモデルはこれまでのフラッグシップモデル「FLUX.1 [pro]」、非営利目的のオープンウェイトモデル「FLUX.1 [dev]」、最速・最軽量モデルの「FLUX.1 [schnell]」の3モデルに、今回発表されたFLUX1.1 [pro]が加わり、全4モデル展開となった。 FLUX1.1 [pro]は従来のフラッグシップモデルFLUX.1 [pro]と比較して6倍の生成速度を実現しながら、画質や指示への忠実性、多様性も向上させているという。 この記事では同じプロンプトで画像を生成することによってFLUX1.1 [pro]と他のモデルの比較をしていく。 ここでひとつ問題がある。FLUXシリーズはモデルによって利用方法が微妙に異なるところだ。 FLUX.1 [schnell] FLUX.1 [dev] FLUX.1 [pro] FLUX.1.1 [pro] モデル提供(ローカルで動作可) ◯ ◯ ー ー API提供 ◯ ◯ ◯ ◯ 商用利用 ◯ 要相談 ◯ ◯ 表でもわかるように、今回発表されたFLUX1.1 [pro]およびFLUX.1 [pro]モデルはローカルにダウンロードしての利用は不可能だ。 Freepikに登録 そこで今回はFLUX1.1 [pro]を利用できる提携サービスのひとつ「Freepik」の「AI Image generator」を利用する。 Freepikには無料プランも用意されているが、FLUX1.1 [pro]を利用するには最低でも月額1300円(年払いなら40%オフ)のEssentialプランに加入する必要がある。 Freepikでの画像生成はクレジット制になっており、Essentialプランは月に1万8000クレジットぶんの画像生成が可能になる。FLUX1.1 [pro]での画像生成は1枚につき120クレジットを消費するため、1ヵ月に58枚の画像を生成することが可能だ。かなり少ないように感じるが、最新ではないモデルを選べば1000枚を超える画像を生成できる。 アカウントを作成してログインしたところ。左側に操作パネル、右側に生成した画像が表示される。 今回はFreepikを利用したが、現在他にもtogether.ai、fal.ai、ReplicateでFLUX1.1 [pro]を使うことができる。 各バージョンとの比較 まずはいつものお姉さん生成プロンプトで各バージョンを比較してみよう。 プロンプト:A photorealistic portrait of a young woman with dyed pastel pink hair and subtle makeup, wearing trendy streetwear, standing in a bustling urban crossing with neon signs in the background プロンプトは操作パネルの左上に入力。「AI-Prompt」にチェックを入れることでプロンプトがAIによって補正されるようだ。 「Mode」をクリックすることで、利用する画像生成モデルを選択できる。ここでは「Flux 1.1 Pro」を選択しよう。 なお、モデル名の表記が若干異なるが「Flux Fast」はFLUX.1 [schnell]、「Flux」はFLUX.1 [dev]、「Flux Realism」はFLUX.1 [pro]に相当するのだろう。もしかして、ベースモデルから多少カスタマイズしているのかもしれない。 また、「Mystic」および「Classic」「Classic Fast」はFreepikの独自モデルだ。 「Style」をクリックすると生成画像の画風(スタイル)を選択できる。 デフォルトでは「#photo」になっている。今回はそのまま利用することにする。 以上の設定で描画した結果。たったの9秒足らずで生成された。クオリティーに関してはこのプロンプトだと以前のバージョンとそこまで違いを見つけられない。 こちらはこれまでのフラッグシップモデル1 [pro]で描画した結果。描画速度は8秒を切った。 ローカルでも使用できる1 [dev]の生成結果。正直上位モデルとの違いはあまり感じられない。描画時間はさらに短い6秒だ。 最速モデル[schnell]で描画した結果。こちらも正直、上位モデルとさほど変わらない。全体的にこのプロンプトではどのバージョンも似たような画像が生成されるようだ。 競合モデルとの比較 去年まではStable DiffusionとMidjourneyの2択だった画像生成AIサービスも、最近は高性能なモデルが次々と発表されて、選択肢も増えてきた。 ここからは現在最新鋭と言ってもいいだろう4つのモデルをFLUX1.1 [pro]と同じプロンプトを使って比較、傾向を探っていこうと思う。 まずは2024年7月に発表されたMidjourneyの最新モデル「Midjourney 6.1」で生成。Fluxと比べるとよりサイバーパンク感が増している。 次に、発表されたのは2023年の9月だが、2024年の8月より無料版ChatGPTでも利用可能になったOpenAIの「DALL-E 3」で試してみよう。 これまで試したモデルとはかなり傾向の違う画像になった。特に背景にあまりブラーがかかっていないのが特徴だ。 2024年8月にグーグルが発表した「Imagen 3」は、10月10日より同社のAIアシスタント「Gemini」でも利用できるようになったことで話題だ。 ただし、現在Geminiでは人物を描くことを制限されているため、今回は「Image FX」を利用して生成することにする。仕様上、正方形の画像しか生成できないのでご了承願いたい。 いわゆる「AIっぽく」ないリアルな人物を生成できることで話題のモデル。たしかにこれまでこのプロンプトで出してきたものとはかなり異なるテイストのお姉さんが生成された。 最後はStability.aiによる最新モデル「Stable Diffusion 3」を元にした「Stable Image Ultra」を同社の有料画像生成サービス「Stable Assistant」経由で試してみた。 これまた独特のネオンぽい色彩で生成された。これまでのモデルでいちばんギラギラしているのではないだろうか。 以上、4つの最新モデル(DALL-E 3だけ少し古いが)で同じプロンプトを使って生成してみたところかなり違いが見られた。他のプロンプトでも違いを見てみよう。 指とテキスト 初期の画像生成AIは「手」を描くのを苦手としていた。6本指や4本指を見かけてギョッとしたことがある人も多いだろう。また、画像内に指定した「文字」を書かせることも得意ではなかった。 ここではその2つの要素を含んだ意地悪なプロンプトを試してみよう。 プロンプト: A hand holding a small business card reading "ASCII.jp" (「ASCII.jp」と書かれた小さな名刺を持つ手) 1.1 [pro]で生成したものは指の破綻もなく、きちんと名刺をつまんでいるように見える。 1 [pro]の方も指は合格。ちょっと名刺が小さすぎる気もするが「a small business card」というプロンプトを忠実に守っているとも言える。 Midjourneyも明るくていい構図だが、見ようによっては6本指に見える画像になってしまっている。 DALL-E 3は完全に6本指になってしまった。名刺に「Ascii.jp」以外の文字が入っているのは少しおもしろい。 Imagen 3はデザインされたおしゃれな名刺になっている。ただし「ASCII」の綴が。惜しい。 Stable Image Ultraも指がおかしいうえに、「ASCI.JP」だ。 以上、Flux以外はまだ指が怪しいことが多い。個人的な優勝は1.1 [pro]ではなく1 [pro]で。 指とポラロイド 引き続き「指」を描かせてみよう。今度は名刺ではなく風景を写したポラロイド写真をつまませてみることに。 プロンプト:Hand holding a Polaroid of a tokyo cityview, fingers perfectly positioned around the edges. The cityview is visible in the background.(東京の街並みのポラロイド写真を握っている手。指は端の周りにぴったりと置かれている。背景には東京の街並みが写っている) さて、まずは1.1 [pro]から。指、ポラロイド写真、構図、100点満点ではないだろうか。 1 [pro]、構図もつまみ方も違うが指は破綻していない。背景を少しぼかしすぎな感じはする。 Midjourneyも構図や色味はすばらしいが、よく見ると指が少し怪しい。 DALL-E 3にしては珍しく背景にブラーが少しかかっている。東京タワーがかっこいいのでポラの中にも入れてほしかった。指は厳密に見ると怪しいがまあ許容範囲か。 唯一両手でつまんでいるのがImagen 3。こちらは背景とポラ両方に入る東京タワーの存在感が目立つ。やはりまだ東京の街というとスカイツリーではなく東京タワーなのだろうか。 ポラが横使いになっているのはStable Image Ultra。こちらもこの構図ならバックにも東京タワーがほしかったかも。 どのモデルもプロンプトの理解は完璧だがやはり指が気になる。個人的優勝はMidjourney。少しくすんだ色味が気にいった。 短いプロンプト Flux 1.1 [pro]には、ユーザーのプロンプトをより詳細なプロンプトに自動的に拡張する「アップサンプリング」機能があるため、短いプロンプトでも創造的な画像を生成できるという。 その例として「Vintage photography(古い写真)」というキーワードを頭に入れるというテクニックが紹介されていたので試してみることにしよう。プロンプトは以下。 プロンプト:Vintage photography. A woman combing her hair next to a ghost.(ビンテージフォト。幽霊の隣で髪をとかす女性) 1.1 [pro]にこのプロンプトを入れて生成すると、内部的には以下のようなプロンプトに拡張されて生成される。 プロンプト:A black-and-white vintage photograph of a Caucasian woman with shoulder-length blonde hair, sitting at a vanity, combing her hair, while a ghost of a Victorian gentleman in a waistcoat stands beside her, looking towards the mirror.(肩まで伸ばしたブロンドヘアの白人女性が化粧台に座り、髪をとかしている様子を写したモノクロのヴィンテージ写真。彼女の横には、ベストを着たビクトリア朝の紳士の亡霊が立っており、鏡の方を向いている。) まるで映画のワンシーンのような雰囲気のある画像が生成された。ただ、「A black-and-white vintage photograph(モノクロのビンテージフォト)」というプロンプトが無視されているのは気になる。 こちらは1 [pro]の画像。1.1 [pro]のようなプロンプトの拡張は行われていないがくすんだ色合いのムードある画像になっている。ただしこちらもビンテージフォト要素は少ない。 Midjourneyはばっちりビンテージフォトの雰囲気を出してきているが、お嬢さんが幽霊の口にブラシを突っ込んでいるという謎のシチュエーションになっている。 DALL-E 3はビンテージフォトというよりはセピア色で描かれた絵という感じだ。女性が幽霊に髪をとかされているのはこれだけ。 Imagine 3はホーンテッドハウス感あふれる半透明の幽霊がよい。クシをもってても髪をとかしてはいないが。 ビンテージフォトの表現はStable Image Ultraがベスト。女性の顔が髪の毛などによって壊れているのは惜しいが、かえって不条理アートにも見えてくるところがおもしろい。 1.1 [pro]の独自性も捨てがたいが、個人的好みで言えばベストはStable Image Ultra。 複数の人物を描写 複数の人物を出すのも画像生成AIの苦手なジャンルのひとつだ。女性グループが記念写真を撮影しているというシチュエーションはどうだろうか。 プロンプト:Young Japanese women gathering to take a group photo, IMG_123.HEIC(若い日本人女性たちが集まって集合写真を撮影している。) なお、最後に付けた「IMG_123.HEIC」は、Xなどで話題になったFluxでリアルな画像を作成する際に有効とされる呪文。「.HEIC」はiPhoneのデフォルトの写真保存形式なので、学習素材のファイル名に含まれやすいということなのだろうか、、 ということで1.1 [pro]の生成結果はこちら。プロンプトに忠実ではあるものの全員の顔があまりにも似ている。髪型も服装も表情も同じなのはさすがに少し気持ち悪い。「IMG_123.HEIC」の効果はよくわからない。 1 [pro]の方も、多少はマシだがそれでも同じ顔になってしまう傾向はある。各人の顔が密着しすぎなのも不自然だ。 Midjourneyは集合写真(group photo)というよりは、スマホで撮影中の女性がたくさん集まっているという解釈のようだ。ただし、日本女性=着物姿なのはいただけない。 DALL-E 3、バッチリ集合写真なのだがアップにすると顔が崩れているのが惜しい。 Imagen 3がいちばん自然な感じはするが、やはりよく見ると似た顔が多い。とは言えFluxと違って服装はバラエティーに富んでいる。 Stable Image Ultraも集合写真ではあるが、こちらも顔と髪型と服装が似通っている。 集合写真はどのモデルにとっても鬼門かもしれない。中ではImagen 3がもっとも自然でよかった。 アニメ+テキスト 最後にアニメ風イラストを試してみよう。Fluxはあまり得意なイメージはないのだが、、、 プロンプト:A beautiful anime girl wearing a T-shirt with "ASCII.jp" written on it is making a peace sign with both hands in a rural landscape.(「ASCII.jp」と書かれたTシャツを着た美少女アニメキャラクターが、田園風景の中で両手を挙げてピースサインをしている。) 1.1 [pro]で生成した結果。あれ?アニメ風になっていないぞ?これはこれでかわいいけどね。 確認すると「Style」パラメーターがデフォルトの「#photo」のままだったので「#cartoonfun」に変更。 するとバッチリアニメ風の画像が生成された。「ASCII」が「ASCI」になっているところはちょっと残念。 1 [pro]で生成された女の子は1.1 [pro]よりもさらに幼く見える。あいかわらず背景がぼやけているのもFluxの特徴だ。 Midjourneyはアニメ風ではあるものの、かわいい一辺倒ではなく背景などにアート風味を感じるところが特徴。 Midjourneyで利用できるアニメ絵特化モデル「niji 6」でも試してみた。新海アニメの世界を彷彿とさせる仕上がりだ。 「DALL-E 3」は独特のレトロな画風がかえっていい感じを出している。Tシャツのバーコードはなんだろう。 Imagen 3の画像もかなり独特だ。アニメとイラストの中間のような感じだろうか。Tシャツのデザインはいちばんいい。 Stable Image Ultraは一般的にイメージされるアニメ風イラストにいちばん近いのではないだろうか。 ひとくちにアニメ風イラストと言っても画風は様々。個人的には1 [pro]が好みだが、ほかもぜんぜん悪くない。 まとめ 以上、最新の画像生成AIを同じプロンプトで比較してみた。FLUX1.1 [pro]はもちろん、最近の画像生成AIは一昔前と比べるとかなり性能が上がっていることがわかる。ただし、DALL-E 3だけ少し性能が劣ると感じたが発表時期を考えれば妥当だろう。 FLUX1.1 [pro]とFLUX1 [pro]の違いだが、正直言ってそこまで大きな違いは感じられなかった。利用料金にかなりの差があるのでFLUX1 [pro]で十分という人もいるかもしれない。 なおここで生成した画像はあくまで同じプロンプトを使って作成したものだ。本来であればそこから試行錯誤して自分がイメージする作品に寄せていくという作業が必要になる。 逆に言えば、一発で思い通りの画像が出せなくてもプロンプトの工夫や、イン/アウトペイントやイメージプロンプトといった技術の併用によって最終的に可能になることもあるだろう。 今回紹介したモデル(サービス)は「DALL-E 3」以外基本的に有料だ。一度に全サービスに登録するのは現実的ではないが、この記事が好みのモデルを見つけるヒントになれば幸いだ。 田口和裕(たぐちかずひろ) 1969年生まれ。ウェブサイト制作会社から2003年に独立。雑誌、書籍、ウェブサイト等を中心に、ソーシャルメディア、クラウドサービス、スマートフォンなどのコンシューマー向け記事や、企業向けアプリケーションの導入事例といったエンタープライズ系記事など、IT全般を対象に幅広く執筆。2019年にはタイのチェンマイに本格移住。 新刊:発売中「生成AI推し技大全 ChatGPT+主要AI 活用アイデア100選」、: 文● 田口和裕