Xに新たな混乱をもたらすか 「Grok」で実写のようなAI画像生成を試してみた
Xから利用できるAI機能「Grok」の新バージョンでは、画像を生成する機能が加わったことが話題になっています。
AIによる画像生成は珍しいものではないものの、実写のような画像を簡単に作れるため、Xに新たな混乱をもたらすことが懸念されています。どのような画像を作れるのか試してみました。
Grok-2で実写のような画像生成が可能に
Grokの機能はXの有料プランの契約者向けに提供されており、8月13日にはGrok-2のベータ版が登場しました。画像生成のモデルとしては、実写のような画像を作れることで話題の「FLUX.1」を採用しています。
使い方は簡単で、Grokに「引き出しを開ける猫の画像を作って」といった指示(プロンプト)を入力すると、5〜7秒程度で画像が出てきます。複雑な文章でなければ日本語にも対応しているようです。
■画像生成に利用したプロンプトはこちら
https://docs.google.com/spreadsheets/d/1T8GntlgHMRhK8NQYIDtC7Z3o6__OPntXFS_Kcmxqb60/
生成AIが苦手とされる、ラーメンを食べるシーン(いわゆるラーメンチャレンジ)はどうでしょうか。プロンプトを変えながら何度か試したところ、違和感の少ない画像を得られました。
Grokが利用するFLUX.1の特徴の1つに、文字を綺麗に描画できるというものがあります。日本語には対応していないようですが、アルファベットや数字であれば綺麗に描画されました。
こちらの画像は以下のような長文のプロンプトで作っています。Grokはプロンプトを最大500文字に圧縮して認識しているようなので、これを見ながら入力するプロンプトを調整するとよさそうです。
画像を生成した後で、Grokに追加の指示を出すこともできます。こちらの例では、Grokが生成した写実的な画像に対して、「日本のアニメ風に変換して」という指示を出してみました。
たしかにアニメのような絵柄になったものの、テーブルの上の料理や背景は変わっていることが分かります。画像を加工したのではなく、指示に基づいて新たな画像を生成したと思われます。
日本についての知識はどうでしょうか。東京タワーなどの有名なランドマークは認識されるものの、それほど深い知識はなさそうです。日本は世界で2番目にXの利用者が多い市場だけに、これはやや残念といえます。
生成できる画像は1回の指示につき1枚のみ。実行できる回数は、月額980円の「プレミアム」プランでは2時間ごとに50回までとなっており、それ以上は月額1960円の「プレミアムプラス」プランを案内されます。
ただ、プレミアムプラスにも上限はあるようです。筆者のアカウントで試したところ、連続して生成を続けると75回で制限がかかりました。その後、しばらく時間を置くと再び生成できるようになりました。
最新の画像生成モデルを手軽に使えるツールが登場したことで、ユーザーにとっては面白い機能である一方で、フェイク画像などがSNS上に出回ることへの懸念も高まっています。
Grokがなかったとしても、すでに世の中には類似ツールが多数存在しているとはいえ、実写に近い画像を簡単に作って投稿できる機能が登場したことで、これまで以上に気をつける必要はありそうです。
AIで作られた画像かどうかを判断する方法として、外部の検出ツールがある程度は有効と考えられます。たとえばイーロン・マスク氏が先日投稿した画像は、Hiveの検出ツールによるとAI生成の可能性が88.5%となりました。
逆に、AIに気を取られるあまり、非日常的に見える写真を「AIで生成したのではないか」と誤認してしまう現象にも注意したいところです。対策として、写真の出所を示す「来歴情報」のような仕組みが重要になりそうです。
有名人や有名キャラクターを描画できてしまうという問題は、サービス開始当初から変わっていないようです。そういった画像を作ることができたとしても、個人的に楽しむのにとどめておいたほうがよいでしょう。
今後のGrokは、Xに投稿されたデータを学習していくとみられますが、自分の投稿を学習されたくないという人は、設定の「プライバシーと安全」の中にあるGrokに関する項目から拒否することができます。初期状態では学習を「許可する」設定になっています。
高性能な生成AIを格安で使える
Grokが利用する画像生成モデルであるFLUX.1は、さまざまな軽量化が図られているものの、かなり重たいモデルといえます。
筆者の仕事用マシンであるメモリーが32GBのMac Studioでは、FP8の「dev」モデルを用いた20ステップの画像生成に3〜4分かかりました。
しかしGrokなら、「dev」または「pro」モデルの品質とみられる画像をわずか数秒で得られます。つい使いすぎた場合でも料金は定額なので、さまざまなプロンプトを試してみるのに向いています。
これほどの計算能力を月980円で使えるのであれば、Grokを目当てにXの有料プランに入っても十分に元が取れるのではないかと思えるほどです。
さまざまな懸念点はあるものの、最新のモデルがすぐに使える状態で広く提供されることにより、AIによる画像生成に興味を持つ人はさらに増えそうです。