Yahoo!ニュース

Xに新たな混乱をもたらすか 「Grok」で実写のようなAI画像生成を試してみた

山口健太ITジャーナリスト
AIで生成した「Yahoo!ニュースを読む女性」(Grokを用いて筆者作成)

Xから利用できるAI機能「Grok」の新バージョンでは、画像を生成する機能が加わったことが話題になっています。

AIによる画像生成は珍しいものではないものの、実写のような画像を簡単に作れるため、Xに新たな混乱をもたらすことが懸念されています。どのような画像を作れるのか試してみました。

Grok-2で実写のような画像生成が可能に

Grokの機能はXの有料プランの契約者向けに提供されており、8月13日にはGrok-2のベータ版が登場しました。画像生成のモデルとしては、実写のような画像を作れることで話題の「FLUX.1」を採用しています。

使い方は簡単で、Grokに「引き出しを開ける猫の画像を作って」といった指示(プロンプト)を入力すると、5〜7秒程度で画像が出てきます。複雑な文章でなければ日本語にも対応しているようです。

キッチンの引き出しを開ける猫(Grokを用いて筆者作成)
キッチンの引き出しを開ける猫(Grokを用いて筆者作成)

雪景色が見えるリビングルーム(Grokを用いて筆者作成)
雪景色が見えるリビングルーム(Grokを用いて筆者作成)

未来的なファッションの女性(Grokを用いて筆者作成)
未来的なファッションの女性(Grokを用いて筆者作成)

■画像生成に利用したプロンプトはこちら
https://docs.google.com/spreadsheets/d/1T8GntlgHMRhK8NQYIDtC7Z3o6__OPntXFS_Kcmxqb60/

生成AIが苦手とされる、ラーメンを食べるシーン(いわゆるラーメンチャレンジ)はどうでしょうか。プロンプトを変えながら何度か試したところ、違和感の少ない画像を得られました。

画像生成AIが苦手とされる「ラーメンを食べる人」の画像(Grokを用いて筆者作成)
画像生成AIが苦手とされる「ラーメンを食べる人」の画像(Grokを用いて筆者作成)

Grokが利用するFLUX.1の特徴の1つに、文字を綺麗に描画できるというものがあります。日本語には対応していないようですが、アルファベットや数字であれば綺麗に描画されました。

架空の発表イベントの様子。パネルに書く文字や登壇者の特徴を細かく指示したもの(Grokを用いて筆者作成)
架空の発表イベントの様子。パネルに書く文字や登壇者の特徴を細かく指示したもの(Grokを用いて筆者作成)

こちらの画像は以下のような長文のプロンプトで作っています。Grokはプロンプトを最大500文字に圧縮して認識しているようなので、これを見ながら入力するプロンプトを調整するとよさそうです。

入力したプロンプトは最大500文字まで認識されるようだ(Xの画面より、筆者作成)
入力したプロンプトは最大500文字まで認識されるようだ(Xの画面より、筆者作成)

米国のマクドナルドの店舗。ロゴだけでなく、一部の掲示物の文字も綺麗に描画されている(Grokを用いて筆者作成)
米国のマクドナルドの店舗。ロゴだけでなく、一部の掲示物の文字も綺麗に描画されている(Grokを用いて筆者作成)

日本のソフトバンクショップを生成してみた。ロゴの雰囲気は近いものがある(Grokを用いて筆者作成)
日本のソフトバンクショップを生成してみた。ロゴの雰囲気は近いものがある(Grokを用いて筆者作成)

画像を生成した後で、Grokに追加の指示を出すこともできます。こちらの例では、Grokが生成した写実的な画像に対して、「日本のアニメ風に変換して」という指示を出してみました。

まずは日本の居酒屋を写実的な画像として生成(Grokを用いて筆者作成)
まずは日本の居酒屋を写実的な画像として生成(Grokを用いて筆者作成)

次に「日本のアニメ風に変換して」と指示してみた(Grokを用いて筆者作成)
次に「日本のアニメ風に変換して」と指示してみた(Grokを用いて筆者作成)

たしかにアニメのような絵柄になったものの、テーブルの上の料理や背景は変わっていることが分かります。画像を加工したのではなく、指示に基づいて新たな画像を生成したと思われます。

日本についての知識はどうでしょうか。東京タワーなどの有名なランドマークは認識されるものの、それほど深い知識はなさそうです。日本は世界で2番目にXの利用者が多い市場だけに、これはやや残念といえます。

「東京タワー」はうまく描画できたが、「レインボーブリッジ」は認識されなかった(Grokを用いて筆者作成)
「東京タワー」はうまく描画できたが、「レインボーブリッジ」は認識されなかった(Grokを用いて筆者作成)

生成できる画像は1回の指示につき1枚のみ。実行できる回数は、月額980円の「プレミアム」プランでは2時間ごとに50回までとなっており、それ以上は月額1960円の「プレミアムプラス」プランを案内されます。

ただ、プレミアムプラスにも上限はあるようです。筆者のアカウントで試したところ、連続して生成を続けると75回で制限がかかりました。その後、しばらく時間を置くと再び生成できるようになりました。

最新の画像生成モデルを手軽に使えるツールが登場したことで、ユーザーにとっては面白い機能である一方で、フェイク画像などがSNS上に出回ることへの懸念も高まっています。

Grokがなかったとしても、すでに世の中には類似ツールが多数存在しているとはいえ、実写に近い画像を簡単に作って投稿できる機能が登場したことで、これまで以上に気をつける必要はありそうです。

AIで作られた画像かどうかを判断する方法として、外部の検出ツールがある程度は有効と考えられます。たとえばイーロン・マスク氏が先日投稿した画像は、Hiveの検出ツールによるとAI生成の可能性が88.5%となりました。

AIが生成した画像かどうか検出するツールの例(HiveのWebサイトより、筆者作成)
AIが生成した画像かどうか検出するツールの例(HiveのWebサイトより、筆者作成)

逆に、AIに気を取られるあまり、非日常的に見える写真を「AIで生成したのではないか」と誤認してしまう現象にも注意したいところです。対策として、写真の出所を示す「来歴情報」のような仕組みが重要になりそうです。

有名人や有名キャラクターを描画できてしまうという問題は、サービス開始当初から変わっていないようです。そういった画像を作ることができたとしても、個人的に楽しむのにとどめておいたほうがよいでしょう。

今後のGrokは、Xに投稿されたデータを学習していくとみられますが、自分の投稿を学習されたくないという人は、設定の「プライバシーと安全」の中にあるGrokに関する項目から拒否することができます。初期状態では学習を「許可する」設定になっています。

デフォルトでは学習を許可する設定になっている(Xのアプリ画面より、筆者作成)
デフォルトでは学習を許可する設定になっている(Xのアプリ画面より、筆者作成)

高性能な生成AIを格安で使える

Grokが利用する画像生成モデルであるFLUX.1は、さまざまな軽量化が図られているものの、かなり重たいモデルといえます。

筆者の仕事用マシンであるメモリーが32GBのMac Studioでは、FP8の「dev」モデルを用いた20ステップの画像生成に3〜4分かかりました。

ローカル環境のFLUX.1(devモデル)で生成した「Yahoo!ニュースを読む女性」(筆者作成)
ローカル環境のFLUX.1(devモデル)で生成した「Yahoo!ニュースを読む女性」(筆者作成)

しかしGrokなら、「dev」または「pro」モデルの品質とみられる画像をわずか数秒で得られます。つい使いすぎた場合でも料金は定額なので、さまざまなプロンプトを試してみるのに向いています。

これほどの計算能力を月980円で使えるのであれば、Grokを目当てにXの有料プランに入っても十分に元が取れるのではないかと思えるほどです。

さまざまな懸念点はあるものの、最新のモデルがすぐに使える状態で広く提供されることにより、AIによる画像生成に興味を持つ人はさらに増えそうです。

ITジャーナリスト

(やまぐち けんた)1979年生まれ。10年間のプログラマー経験を経て、フリーランスのITジャーナリストとして2012年に独立。主な執筆媒体は日経クロステック(xTECH)、ASCII.jpなど。取材を兼ねて欧州方面によく出かけます。

山口健太の最近の記事