Skip to main content

Ground Truth: ジオメトリ精度の高い3D再構築について

日付:5/27/2026
カテゴリ:
Featured News
Field Operations
Public Sector
ロボティクス

多くのAIが生成するワールドモデルは、「それらしく見える」ものを出力することを目的としています。Niantic Spatialの再構築 パイプラインは、「実際に正確である」ものを出力することを目的としており、キャプチャした空間の物理的な現実を反映した、ジオメトリが正確なモデルを生成します。これは、フィジカルAIのための現実世界基盤モデルを構築するために不可欠なステップです。

この違いは、現実世界で業務を行うすべての人にとって重要です。インフラ関連ではジオメトリ精度の高いな3D再構築データを活用して、現地まで訪問することなく遠隔に居ながら3Dアセットで点検を行えます。保険・エネルギー では現場の分析や管理に活用することが可能です。ロボティクスでは、現実の環境からシミュレーションへのトレーニングデータとして使用できます。本記事では、パイプラインの仕組みと、この精度をスケーラビリティをもって実現することが困難であるかについて説明します。

根本的な課題:生の映像データはジオメトリ情報ではない

映像がドローン、スマートフォン、360°カメラのいずれから取得されたものであっても、出発点は重複する映像フレームの集合体です。写真はメタデータに位置情報を持つことが多いですが、深度情報は含まれていません。屋上の写真はその外観を伝えることはできますが、高さや長さを伝えることはできません。

生の映像フレームを3Dジオメトリに変換するには、2つの問題を解決する必要があります。各フレームを撮影した際のカメラの位置を特定することと、その位置情報を使ってシーンの物理的な構造を再構築することです。

どちらの問題も、大規模になると見た目以上に困難です。複数のフライトから得られる数万から数十万フレームを扱う都市規模のものでは、まず、計算とアライメントが大きな課題となります。

カメラ位置の特定

最初のステージはストラクチャー・フロム・モーション(SfM)です。重複する画像間で一致する視覚的特徴を特定し、その対応関係を利用して、各フレームが撮影された瞬間のカメラの正確な位置と向きを復元します。

「カメラが何を見たか」から「カメラはどこに位置していたはずか」を逆算するプロセスです。このステップがうまくいかなければ、その後のステップがどれほど優れていても、生成される再構築データは歪んだものや使い物にならないものになります。

SfMは確立された手法ですが、困難なスキャン条件では精度が低下します。コンクリート、ガラス、反射する金属のような視覚的テクスチャに乏しい表面では、フレーム間で照合できる特徴点が少なくなります。変化する照明条件、モーションブラー、キャプチャ位置間の大きな距離(同じ特徴を捉えた2つのフレームが、アルゴリズムが照合に困難になるほど離れた位置から撮影された場合)、カバレッジのギャップも同様の問題を引き起こします。これらは、ドローン測量、アーカイブ映像、海底映像を扱う皆さまにとって特に重要な課題です。

Niantic Spatialでは、精度の低いデータ(専門家ではない方によるキャプチャ、不均一なカバレッジ、変動する条件)を使ったトレーニング、推論、再構築において豊富な実績を持っています。その積み重ねが、難しい入力データや大規模な屋外空間に対応できるシステムを生み出しました。この基盤となった研究論文には、ACE(CVPR 2023)、ACEZeroおよびScene Coordinate Reconstruction(ECCV 2024)、MicKey(CVPR 2024)、ACE-G(ICCV 2025)が含まれます。

カメラ位置からジオメトリへの変換

すべてのカメラの位置と向きが判明したら、パイプラインが3Dデータを構築します。出力フォーマットは点群、ポリゴンメッシュ、および3Dガウシアンスプラット(3DGS)です。

3DGSは、シーンを小さな半透明のガウシアン(不定形で柔らかい塊や斑点などの意)形状の大規模なコレクションとして表現します。各形状は定義された位置・サイズ・向き・色を持ちます。本質的には、各点が位置だけでなく体積と色を持つ、大規模な3D点群です。数百万のこれらの3Dガウシアンが集まることで、あらゆる視点から写真のようににレンダリングできる表現が形成されます。

これらの表現を構築する標準的なアプローチは、視覚的品質に最適化されています。見た目には正しい画像を生成しますが、基礎となるジオメトリが物理的に正確であることを保証しません。実際には、表面が互いに侵食し合ったり、低テクスチャ領域に穴が生じたり、オブジェクトのエッジで表現が不安定になることがあります。

これらのアーティファクトはレンダリング画像では見えないことが多く、計測を試みたり、シミュレーション用にメッシュを抽出したり、再構築データをロボットのトレーニングデータとして使用しようとした瞬間に問題を引き起こします。

Niantic Spatialのパイプラインは、深度推定研究 (SimpleRecon (ECCV 2022), DoubleTake (ECCV 2024), そしてMVSAnywhere (CVPR 2025))から導出された深度と表面の制約を適用します。その結果、単に視覚的に妥当なだけでなく、基礎となるジオメトリが物理的に整合性のある再構築データが得られます。

再構築されたデータはジオリファレンスにも対応しています。モデル内の各点に現実世界の座標が割り当てられ、世界中のマップおよびジオスペーシャルインフラで使用されている座標系に紐付けられます。これにより、地図上に配置したり、数ヶ月の間隔を置いて撮影された同じ場所のキャプチャを比較したり、撮影場所の情報を必要とする別のシステムのデータとして利用することも可能です。

拡張性を持たせた圧縮とストリーミング

都市規模のガウシアンスプラット再構築データは、生の状態では数百ギガバイトに達することがあります。これはストレージとデリバリーの観点から実用的ではなく、ユーザーグループ間でのアセット共有や既存ワークフローへの統合を困難にします。

Niantic Spatial では、ガウシアンスプラットデータの圧縮フォーマットSPZを開発・オープンソース化しました。非圧縮PLYと比較すると、ファイルサイズを約90%削減しながら、視覚的品質への影響はほとんどありません。SPZは専用デコーダーなしでCesium 3D Tiles、glTF、ESRI ArcGIS、SuperSplatで対応しています。最近リリースされたSPZ 4では、並列圧縮ストリーム、3〜5倍高速なエンコード、大規模シーンで約半分のロード時間を実現しています。詳細はこちらをご覧ください。

スプラットが大規模になるほど、これは重要になります。本日、私たちはSpexi Geospatialとのパートナーシップを発表しました。1万人以上のドローンパイロットからなるSpexi の空撮データネットワークとNiantic Spatialの再構築技術を組み合わせることで、このパイプラインを都市規模で活用できるようになります。

出力データの活用用途

Niantic Spatial の再構築データの価値は、視覚的な忠実度だけでなく、出力に埋め込まれたジオメトリの精度と現実世界の座標にあります。

現在の活用用途には、インフラ関連の点検(計測ツールを活用し、現地を訪問することなく、遠隔でアセットを評価)、保険リスク評価(高解像度のジオメトリが衛星画像では捉えられない構造的詳細をキャプチャ)、エネルギー では現場の分析および管理(複数時点のキャプチャが経時的な変化検知を支援するなど)、そしてロボティクス(現実環境のジオメトリ精度が高い再構築データが、自律ナビゲーションにおけるsim-to-realギャップを縮小するトレーニングデータを提供)が含まれます。

フィジカルl AIにとって、ジオメトリ精度が高く現実世界に根ざしたモデルを都市規模で生成できることが、3D再構築データをトレーニングデータとして有用にする要因です。合成シミュレーション環境の生成は容易ですが、現実の物理空間の複雑さを捉えるには限界があります。

パイプラインはまた、Visual Positioning System (VPS) マップも出力として生成します。これにより、再構築が実行された同じ環境で作業する方とロボットの位置推定を行うことが可能になります。

共有: