「実在しない超リアル」次々に登場するAI生成画像の不安とは?
AIが高精度の架空の画像を生成する「ステイブル・ディフュージョン」が話題を呼んでいる。
テキストで指示を入力することで、AIが自動的に高精度のイラストや写真など「実在しない超リアル」な画像をつくりだす。
英米で拠点を置くベンチャーによる無料サービスが一般公開されたことで、本格的な画像作成のハードルが一気に下がった。
ただ、懸念も指摘されている。有害なフェイク画像の拡大だ。先行するAI画像生成サービスを含め、有害画像の生成は受け付けない、などの対応をするが、生成の実例も報告されている。
AIフェイク動画「ディープフェイクス」の登場から5年。リアルとフェイクの境界は、さらに曖昧になってきた。
●高精度の画像が即座に
英国と米国に拠点を置くベンチャー「スタビリティAI」のCEOで創業者のエマド・モスタク氏は8月22日、「ステイブル・ディフュージョン」の一般公開のリリースでそう述べている。
同社はその2週間前、8月10日に研究者向けの公開をしており、公開範囲をさらに拡大させたものだ。
「ステイブル・ディフュージョン」は、テキストを入力することで、ユーザーが意図したイラストや写真などを、高精度に、そして短時間に生成するAIだ。
その名称にもしている「拡散モデル(Diffusion Model)」と呼ばれる仕組みを使う。フェイクAI動画「ディープフェイクス」で使われてきた「敵対的生成ネットワーク(GAN)」よりも、高精度とされる。
オープンソースのAI開発サイト「ハギング・フェイス」で公開されている「ステイブル・ディフュージョン」では、アクセスの込み具合によるが、数分で512×512ピクセルの4枚の画像が生成される。
「LAION」と呼ばれるインターネット上から収集された画像をもとにした、58億5,000万件の画像URLとキャプションの多言語データセットを使用。AWS上の4,000 個のエヌビディアのGPU のクラスターで、1カ月間、学習をさせたという。
有料版の「ドリームスタジオ・ライト」(10ポンドで標準画像1,000件)も公開されており、こちらはより高速に画像が生成される。
AIによるテキストからの画像生成では、オープンAIによる「DALL·E 2」(初月50件無料+毎月15件無料、追加分は15ドルで115件)や「ミッドジャーニー」(当初25件無料、月額10ドルで200件)など、一部無料で追加分有料のモデルが知られる。
だが、「ステイブル・ディフュージョン」は、生成速度を気にしなければ今のところは全くの無料で、しかも高精度であるという点に特徴がある。
また、有料版では動画とオーディオの「ドリームスタジオ・プロ」と、これらの機能を統合したエンタープライズ版(法人向け)の公開が予定されている、という。
●「倫理的、道徳的、合法的な利用」
「スタビリティAI」CEOのモスタク氏は、「ステイブル・ディフュージョン」のリリースの中で、こうも述べている。
「スタビリティAI」の利用規約では、「第三者の著作権、特許、商標、企業秘密、人格権などの所有権を侵害しない」「虚偽、不正確、または誤解を招かない」「スパムではない」「わいせつ、不潔、暴力、嫌がらせ、中傷などの好ましくない内容ではない」「ハラスメントや脅迫、暴力の促進に使用されない」「いかなる法律・規制にも違反しない」「第三者のプライバシーまたはパブリシティ権を侵害しない」「児童ポルノではない」「人種、国籍、性別、性的嗜好、身体的ハンディキャップに関連する攻撃的コメントを含まない」「本利用規約または適用される法律もしくは規制のいずれかの条項に違反したり、違反する素材にリンクしていない」などの禁止事項を挙げている。
さらに「ステイブル・ディフュージョン」のライセンスでは、11項目の使用制限事項が列挙されている。
①国内法・国際法への違反
②未成年者の搾取
③他人に危害を及ぼす目的での検証可能な虚偽コンテンツ
④他人に危害を及ぼす可能性のある個人識別情報
⑤他人への中傷、名誉毀損、その他のハラスメント
⑥個人の権利に悪影響を及ぼす完全に自動化された決定
⑦個人・集団に差別や危害を及ぼす用途
⑧年齢、社会的、身体的または精神的特徴に基づく特定の集団の脆弱性を悪用し、身体的または精神的危害を及ぼす
⑨法的に保護された特性やカテゴリーに基づいて個人またはグループを差別する目的
⑩医療アドバイスや医療結果の解釈を提供するため
⑪個人が詐欺や犯罪に関与することを予測するなど、司法行政、法執行、移民または亡命プロセスに使用する目的で情報を生成または広めるため
他の画像生成AIのサービスにも、やはり制限・禁止事項はある。
「DALL·E 2」はコンテンツポリシーで、「ヘイト」「ハラスメント」「暴力」「自傷行為」「セクシャル」「ショッキング」「違法行為」「欺瞞(陰謀論、地政学的イベント)」「公衆衛生・個人の健康」「スパム」のほか、「コンテンツにおけるAIの役割の開示」、そしてディープフェイクスの作成防止のために公人を含む「現実的な顔画像」のアップロードと作成を禁止している。
「ミッドジャーニー」でも、コミュニティ・ガイドラインの中で「暴力・ハラスメント」「アダルトコンテンツ・血なまぐさい表現」「他人の創作物の無許可共有」などの禁止と「ルール違反へのアカウント削除」をうたっている。
テッククランチのカイル・ウィガース氏は8月13日付の記事で、入力の際の禁止ワードの範囲など、「ステイブル・ディフュージョン」の規制の緩さを指摘している。
特に、「DALL·E 2」では明確に禁止されている政治的なコンテンツの生成が、「ステイブル・ディフュージョン」では可能になっている点だ。ウィガース氏の記事では、ヒトラーやオバマ米元大統領の画像生成などを例に挙げている。
「DALL·E 2」では、各国の政治指導者をモチーフにした画像を生成することは、テキストの入力段階でフィルターがかかっていてできない。だが「ステイブル・ディフュージョン」では、ウクライナのゼレンスキー大統領やロシアのプーチン大統領を素材とした画像も作り出せる。
AIを使ったフェイク動画やフェイク画像の代名詞ともなった「ディープフェイクス」が登場したのは、2017年秋だった。
※参照:AI対AIの行方:AIで氾濫させるフェイクポルノは、AIで排除できるのか(02/24/2018 新聞紙学的)
それから5年。ウクライナ侵攻をめぐっては、すでにゼレンスキー大統領やプーチン大統領の「ディープフェイクス」がネット上で拡散する事態も起きている。
※参照:ウクライナ侵攻「AI偽ゼレンスキー」動画拡散、その先にある本当の脅威とは?(03/18/2022 新聞紙学的)
ハイブリッド戦争でもAIフェイク動画が使用される現在、そのようなコンテンツ作成のハードルが、より低くなったということでもある。
テッククランチのウィガース氏の記事では、「ステイブル・ディフュージョン」がヌードなどの性的コンテンツの生成にフィルターがかかっていない、とも指摘していた。
ただ、この記事は一般公開前の掲載で、現在では入力段階で一定のフィルターがかかっているようだ。
●画像生成による「架空の歴史」
筆者は、架空のファッション誌の表紙の画像を1860年代の創刊号から、10年ごとの年代順に2030年代まで生成してみた(※記事冒頭の画像参照)。
存在しないファッション誌の、存在しないバックナンバー(と未刊号)のアーカイブだ。それらを並べてみることで、存在しない「ファッションの歴史」が浮かんでくる。
また、「1750年に出版された魔法の毒草図鑑」(※画像上段)や「1650年に出版された魔法の毒薬図鑑」(※同下段)など、存在しない「偽書」も生成できてしまう。
テクノロジーによるそんな時空のゆがみは、社会にどんな影響を与えるのか。
(※2022年8月25日付「新聞紙学的」より加筆・修正のうえ転載)