アップルの「画像の意味を捉える」マルチモーダルAIモデル「4M」、画像編集の自動化などへの布石か
4Mモデルの特徴とは?
4Mはどのような特徴を持つのか。テクニカルレポートを参照し、同モデルの強みをみていきたい。4Mの強みを一言で言うと、人間の感覚に近い形で、テキスト、画像、空間情報など、さまざまな種類のデータを一度に処理できる能力だ。 最大の特徴は、これらの異なるタイプの情報を統一的に扱える点にある。たとえば、人間が「赤いリンゴ」と聞いて、その色、形、味までイメージできるように、4Mも文字、画像、立体的な情報を関連付けて理解することができる。 「秋の公園で犬の散歩をする人」という複雑な場面描写に対しても、4Mは多角的な理解と生成が可能となる。テキストから画像を生成する際、モデルは秋の色彩(黄色や赤の葉)、公園の要素(木々、ベンチ、歩道)、人物と犬の姿勢や関係性を適切に表現できるのだ。同時に、生成された画像の深度マップを作成し、手前の人物や犬、中距離の木々、遠景の風景などの空間的関係を把握することもできる。 また、逆のプロセスも可能だ。秋の公園で犬の散歩をしている人の画像が与えられた場合、4Mはその視覚情報を分析し、適切な説明文を生成することができる。さらに、画像から3Dモデルを推定したり、シーンのセマンティックセグメンテーション(木、空、人、犬などの領域分割)を行ったりすることも可能となる。 4Mは複数の情報を矛盾なく生成できる能力も備える。たとえば、ある画像を生成した後、その画像に合わせて説明文を作成するといったことが可能となる。これは、生成した情報を次の情報生成の参考にするという方法により可能となっている。 4Mが扱える情報の種類は多岐にわたる。通常の画像だけでなく、物体の奥行きを示す深度マップ、画像内の物体の種類を示すセグメンテーション情報、さらには画像のメタデータやカラーパレットなども扱えるのだ。 性能評価では、4Mは画像の奥行き推定、物体の識別、人体の3D姿勢推定など、様々なタスクで既存の専門AIと同等かそれ以上の性能を示した。特に、1つのモデルで多くのタスクをこなせる点が、他の汎用AIモデルと比べて優れていることが確認された。 このように、4Mは多様な情報を統合的に扱える柔軟なAIモデルであり、今後のAI応用の可能性を大きく広げる潜在力を秘めている。
【関連記事】
- AIの学習データをめぐる競争 アップルとシャッターストック提携などに見る競争激化とその最新動向
- アップルも注目する最近の生成AIトレンド「小型LLM」、オフラインでも利用できる生成AIの登場とスマホ/ラップトップ市場へのインパクト
- アップルVision Pro、1,000個以上のアプリが登場。OpenAIのCEOは絶賛もメタ・ザッカーバーグCEOは厳しい評価、リリース後の賛否さまざまな声
- OpenAIサム・アルトマンCEOのAIチップ開発で7兆ドル調達の野望、GPU関連スタートアップの台頭など、激変するAIチップ市場の現状
- GAFAMに続くIBM、生成AIに焦点当てた5億ドルのベンチャーファンド設立 法人向けAIテックへの投資を加速