ARや自動運転技術への応用に期待、3次元のAIビジョンを実現するアップルの最新AIモデル

11/25(月) 6:03配信

各モデルの処理速度比較 https://arxiv.org/pdf/2410.02073

処理速度においても、Depth Proは圧倒的な優位性を示す。HD解像度の画像処理において、Depth Proは341.3ミリ秒で処理を完了する。これは、Marigoldの4433.6ミリ秒、PatchFusionの8万4,029.9ミリ秒と比較して、桁違いの高速性を誇る。さらに、4K解像度の画像処理においても、同様の高速性を維持している。メトリック深度の精度においても、Depth Proは既存モデルを凌駕する性能を示している。6つの主要なデータセット（Booster、ETH3D、Middlebury、NuScenes、Sintel、Sun-RGBD）における平均ランクは2.5と最も高い精度を記録。Metric3D v2の3.7やUniDepthの4.2を上回る結果となった。また、焦点距離の推定精度においても、Depth Proは優れた性能を発揮する。PPR10Kデータセットにおいて、相対誤差25%以下の推定精度が64.6%を記録。これは次点のSPECモデル（34.6%）に比べ2倍近い高い精度となる。驚くことにDepth Proは、これらの高い性能を特別なハードウェアや複雑な前処理を必要とせずに達成できる。標準的なGPUで動作し、単一の2次元画像から直接深度マップを生成できる点は称賛に値する。さらに、カメラの内部パラメータ（焦点距離など）を必要としない点も、実用性を高める重要な要素となる。このように、Depth Proは深度予測の主要な性能指標において、既存モデルを大きく上回る性能を示している。高速性と高精度を両立しており、実用的なアプリケーション開発を大きく前進させる可能性を秘めている。

Depth Pro、どの分野に応用できるのか？

Depth Proの高精度な3次元認識能力は、複数の産業分野での応用可能性を持つ。特に、Eコマース、自動運転、AR（拡張現実）の3分野において、具体的なユースケースが見えつつある。 Eコマース分野では、Depth Proの高精度な深度マップ生成能力が、オンラインショッピングの体験を大きく変える可能性がある。たとえば、スマートフォンのカメラで部屋を撮影するだけで、家具がその空間にフィットするかどうかを実寸大で確認できるようになる。これは、Depth Proが実世界の測定値を提供できる「メトリック深度」機能を備えているためだ。この機能により、バーチャルオブジェクトを物理空間に正確に配置することが可能となる。自動運転分野では、Depth Proの高速な深度マップ生成能力による車両の環境認識能力向上が期待できる。単一のカメラから、リアルタイムで高解像度の深度マップを生成できる能力は、自動運転車の障害物検知や経路計画の精度向上に貢献する可能性が高い。0.3秒という高速な処理速度は、自動運転に必要なリアルタイム性を十分に満たしているといえるだろう。 AR分野においては、Depth Proの高精度な境界検出能力が、より自然なAR体験を生み出す可能性を秘める。従来のモデルでは捉えきれなかった髪の毛や植物などの細かい構造も正確に検出できるため、バーチャルオブジェクトと実世界のオブジェクトとの自然な重なり合いを実現できる。これにより、今までにないほど高い没入感を伴うAR体験が可能になると考えられる。 Depth Proがオープンソース化されていることを鑑みると、予想を超えたユースケースが登場する可能性もある。コードとモデルの重みはGitHubで公開されており、開発者や研究者が自由に実験し、さらなる改良を加えることが可能だ。アップルの研究チームは、ロボット工学、製造業、ヘルスケア分野での活用／探索を奨励。これらの分野で新たな応用可能性が切り開かれることが期待される。 Depth Proは、以下のHugging FaceのSpacesページでデモ版を試すことができる。 https://huggingface.co/spaces/akhaliq/depth-pro

文：細谷元（Livit）

2/2ページ

Yahoo!ニュース

ARや自動運転技術への応用に期待、3次元のAIビジョンを実現するアップルの最新AIモデル

Depth Pro、どの分野に応用できるのか？

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）