多視点3Dディスプレイ「Looking Glass Go」用に写真を立体化、AIによる単眼深度推定の方法と課題を解説
自分で単眼深度推定したい
このように豊富なサービスが提供されるため、Looking Glass Goを手に入れても表示するコンテンツが無い状況は避けられそうです。 小洒落た立体フォトフレームとしてならBlocksで十分対応できますし、空間写真も楽しめます。 UnityやUE、WebXRなどに対応するソフトウェアも提供されます。これらを使った3Dコンテンツの表示や、Looking Glass Go専用のゲーム作りなども試したいところです。 既存の写真の立体視化も、オンラインサービスのBlocksでの変換だけでなく、Looking Glass Studioというアプリケーションでローカル処理が可能になる見込みです。 まだPortraitへの対応しか公式のドキュメントに記載されていませんが、こちらもGoに対応するでしょう。 そうした便利なツールが提供されるのに、それでも自分で立体視コンテンツを用意したくなり、まずは単眼深度推定という処理のための環境を作り始めました。 単眼深度推定は、公式のBlocksやStudioでも写真を立体視対応させるために使っている技術です。 公式に提供される機能をわざわざ自前で扱うのは、単眼深度推定という技術の発展が著しく新しい技術を試したいこと、プライベートな画像を扱う可能性があること、そして自前のサービスにLooking Glass Goを組み込む場合にも利用できることなどが理由です。 実機がないので試せることは少ないのですが、間口の広い技術ですし、ここを押さえておけば一番潰しが効きそうです。 ・単眼深度推定とは何か 写真や動画は立体的な現実を二次元の画素の集まりに落とし込んだものです。三次元としての情報は失われており、そのままでは立体視に対応しません。 3D対応のカメラやビデオカメラがありますが、多くは左右の眼の視差の分ずらした像を記録するものです。両眼分の視差がある画像ならそれを使った立体視が可能ですし、Looking Glass Goのような方式向けの深度推定もかなりやりやすいでしょう。 あるいはiPhoneなどのスマートフォンでは、デュアルカメラやTrueDepthカメラといった特殊なカメラで撮影することで、写真に深度情報を付加できます。 iPhoneではこれを使ってポートレートモードのボケの編集などをサポートしていますが、Looking Glassの製品でもStudio経由でその深度情報を立体視に利用できるようです。 しかし特別な記録方法を使わない多くの写真や動画には、ひとつの眼で記録された二次元情報しかありません。そうした記録されていない奥行きを、二次元情報から推定するのが単眼深度推定です。 ・単眼深度推定は発展著しい分野 単眼深度推定はロボット制御や自動運転など産業の応用も広く、発展著しい分野です。いわゆるAIを用いたものが次々と登場しており、高性能なものを制限の少ないライセンスで利用できます。 私の場合はゲーム開発や3DCG、生成AIと合わせた利用が主で、特にStable Diffusion 2 DepthやControlNetの登場で深度情報を使った制御が可能になってから本格的に利用し始めました。 たとえば次の画像は、2022年のクリスマスに子供と一緒に積み木で作ったお城を、Stable Diffusion 2 Depthを用いて装飾したものです。 Stable Diffusion 2 Depthが使用しているのはMiDaSという単眼深度推定のツールでした。MiDaSは非常に優れていて、追加の学習なしに幅広い画像の深度を精度高く推定してくれます。MiDaSは続いてControlNetにも採用されました。 2023年に入るとZoeDepthが登場します。最高性能を謳っていて、確かにMiDaSより優れた結果が出る場合もありました。こちらもやはりControlNetが対応し、現在でも広く使われています。 その後は幾つかの研究やサービスが発表されるも、汎用の座を置き換えるほど大きな変化はしばらくなく、2023年末にMarigoldが登場します。MarigoldはStable Diffusionのモデルを応用した手法で深度を推定します。現時点でオープン且つ最高性能の単眼深度推定ツールだと考えています。 2024年に入るとDepth Anythingが公開されました。MiDaSやZoeDepthより高性能を謳うとおり、より正確な推定を返します。 Marigoldと比べると劣るケースも多いですが、Depth Anythingが優れているのは推論の速度で、条件次第でリアルタイムに近い深度推定が可能です。 単眼深度推定はこのように次々と新しい研究や製品が登場している状況です。Looking Glassが公式に提供するツールだけを使うと、こうした動きに追従するのはどうしても遅れます。 2024年6月の一般出荷開始までまだ3カ月あり、それまでに新たな研究成果が発表される可能性も十分あります。 そこでまずは現時点で最高性能と考えるMarigoldで、気軽にLooking Glass Go対応画像を作れる土台を作っておきましょう。