ARや自動運転技術への応用に期待、3次元のAIビジョンを実現するアップルの最新AIモデル
2次元から3次元認識の領域へ、進化する画像認識技術
AIを活用した画像認識技術は、2次元から3次元認識へと、その進化の方向性を大きく変えつつある。アップルのAI研究チームによって新たに開発されたAIモデル「Depth Pro」が、この流れをさらに加速する見込みだ。 Depth Proは、単一の2次元画像から詳細な3次元深度マップを生成できる技術。開発を主導したアレクセイ・ボチコフスキー氏とブラドレン・コルトゥン氏らによると、このモデルは同種の技術の中で最も高速かつ正確なシステムの一つであるという。 最大の強みは、従来の深度予測モデルで必須とされてきたカメラのメタデータ(焦点距離などの情報)を必要としない点だ。標準的なGPUを使用し、わずか0.3秒で225万画素の高解像度深度マップを生成できる。髪の毛や植物といった従来のモデルでは見落とされがちな細かいディテールまで捉えることが可能とされる。 これはマルチスケールビジョントランスフォーマーの採用によって実現した。この構造により、画像の全体的な文脈と細かいディテールを同時に処理することが可能となったのだ。「メトリック深度」と呼ばれる機能を備えている点も特筆に値する。これにより、相対的な深度だけでなく、絶対的な深度も推定することが可能という。AR(拡張現実)などのアプリケーションにおいて、バーチャルオブジェクトを物理空間に正確に配置する際に不可欠な機能だ。 また、Depth Proは「ゼロショット学習」能力を備えており、特定のドメインに特化したデータセットでの事前学習を必要としない。これにより、さまざまな種類の画像に対して高い精度で深度予測が可能となる。研究チームは、この柔軟性により、ARだけでなく画像編集、ビュー合成、条件付き画像生成まで、幅広いアプリケーションへの応用が可能になると評価している。
アップルのDepth Pro、その特徴と強み
Depth Proの技術的な優位性は、従来モデルとの比較により明確になる。特に境界検出の精度、処理速度、メトリック深度の精度という3つの重要な指標において、既存モデルを大きく上回る。 まず境界検出の精度について、Depth Proは髪の毛や毛皮、植物などの細かい構造を極めて正確に検出できる。具体的な数値で見ると、AM-2Kデータセットにおける境界検出の精度(リコール値)は0.173を記録。次点のDepth Anything v2の0.107や、Marigoldの0.064を大きく上回る結果となった。
【関連記事】
- アップルの「画像の意味を捉える」マルチモーダルAIモデル「4M」、画像編集の自動化などへの布石か
- AIの学習データをめぐる競争 アップルとシャッターストック提携などに見る競争激化とその最新動向
- アップルも注目する最近の生成AIトレンド「小型LLM」、オフラインでも利用できる生成AIの登場とスマホ/ラップトップ市場へのインパクト
- アップルVision Pro、1,000個以上のアプリが登場。OpenAIのCEOは絶賛もメタ・ザッカーバーグCEOは厳しい評価、リリース後の賛否さまざまな声
- Getty ImagesがHugging Faceで「最もクリーン」なビジュアルデータを公開 データ品質の向上と期待されるAIモデルの精度アップ