Appleの新しいAI画像編集ツール「MGIE」とは?
Appleは、いくつかの小さな機能がiOS 17に追加されたことを除けば、生成AIの分野で少し遅れていました。 しかし、2024年はAppleの大きなAIの年になりそうな予感。iOS 18に注目が集まっており、AI機能が充実する可能性があるのです。そのなかには、アップグレードされたSiriも含まれます。 加えて、そのリリース前に、Appleの研究者はカリフォルニア大学サンタバーバラ校と提携して、自然言語の指示を理解するオープンソースのAIモデルを公開しました。 たとえば、写真の編集をAIに指示すると、その作業を行なってくれるというのです。
Appleの「MGIE AI 画像編集ツール」とは?
この新しいAIモデル、「MGIE(MLLM-Guided Image Editing)」は、ユーザーからの標準的なコマンドを受け取り、編集作業における3つのタスクを実行します。 Photoshopスタイルの修正 写真全体の最適化 ローカルな編集 「Photoshopスタイルの修正」には、トリミング、回転、背景の変更などのアクションが含まれます。 2つ目の「写真全体の最適化」とは、画像全体の効果を調整すること(明るさやコントラスト、または画像の鮮明さなど)。 最後の「ローカルな編集」とは、画像の特定の領域(形状、サイズ、色など)を指します。
MGIEの仕組み
MGIEとは、主にMLLM(多モーダル大規模言語モデル)によって動作する仕組みです。 これは、テキストに加えて視覚的な情報や音を解釈できるLLMの一種。この場合、MLLMはユーザーのコマンドを受け取り、適切な編集指示として解釈します。MGIEの研究論文では、これが伝統的に困難なタスクであると説明しました。 なぜなら、ユーザーのコマンドは、追加の文脈なしではシステムが正しく理解するのが難しいことがよくあるからです(たとえば、「ピザを健康的に見せる」というプログラムはどう解釈すればいいのでしょうか)。 しかし、研究者たちはMGIEのようなMLLMがここで有効であると述べています。 研究論文によると、MGIEはさまざまな種類の視覚的な編集が可能とされているからです。たとえば、水域の画像に雷を追加し、水面にその雷を反射させるように依頼することができます。 また、意図せず写真に写り込んでしまった背景のオブジェクト、たとえば人物を除去することも可能。さらに、ドーナツの盛り合わせをピザに変えたり、ぼやけた被写体の焦点を増やしたり、良い写真からテキストを除去したりできるのです。 この技術がどのように機能するかは、研究論文を読むと理解できるでしょう。エディターが実際にどのように動作するか、論文内で解説されています(入手はこちらから可能)。 もちろん、これらは写真編集において初めてAIが活用された事例ではありません(Photoshopには、ユーザーのプロンプトから生成されたAI編集ツールがすでに長い間存在しています)。 しかし、MGIEは、コマンドに基づいたAI画像エディターのもっとも実現されたビジョンの1つかもしれません。