画像・音楽・動画の生成AI、より高クオリティに #GoogleIO
Google(グーグル)が、開発者向けカンファレンス「Google I/O」にて新たな生成AIツールを発表しました。 【全画像をみる】画像・音楽・動画の生成AI、より高クオリティに #GoogleIO 今回のGoogle I/Oでは“マルチモーダリティ”というキーワードを何度も使い、GoogleのGemini AIにおいて、テキストだけでなく音声や画像、動画、コードなどさまざまなメディアでの入力、そして出力を強化していることを強調していました。 そんななかで発表になったのが、画像生成AIツールの最新バージョン「Imagen 3」、音楽生成AIツールの「Music AI Sandbox」、そして動画生成AIツールの「Veo」です。
画像生成AI「Imagen 3」
最初に発表されたのが、2022年にリリースされた画像生成AIの最新バージョン「Imagen 3」です。 Imagen 3では、画像生成におけるテキストプロンプトの入力が強化され、たくさんの情報を含んだ長文を理解し、非常に細かい部分まで指定して画像を生成できるようになりました。 たとえば、発表会でのデモ画像(上部画像)では、「高解像で」「カラーグレーディング」「超現実的なスタイル」といった画像編集で行なうような指定も含むテキストから生成されています。 ほかにも、「被写界深度を浅く」「偏光フィルターを使って」「デジタル一眼レフカメラのスタイルで」といった、撮影時のカメラをどのように使うかの指示も理解できるようになりました。
音楽生成AI「Music AI Sandbox」
次に紹介するのは音楽生成AIツール「Music AI Sandbox」です。こちらは、Googleが開発してきた音楽生成AIモデル「Lyria」を元に、音楽生成ツールとして開発されたもの。 発表会では、ワイクリフ・ジョンら、プロのミュージシャンが実際にツールに触れている動画が公開されました。 このツールでは、ジャンルや楽器、キー、テンポなどのテキストから音楽を生成できます。 さらに、DTMで作成したループや録音したギターリフなどからその音を加工・編集することも可能とのこと。こちらも、音を生成する際に入力できる複雑な文脈のテキストも理解できるようになり、より幅広い音楽の生成が可能になっているようです。