10兆ドルの投資を、広告ではなく、現実世界をより良くするAIへ
この記事は、The Information. にて発表されたものです。
4年前、ちょうど「メタバース」という言葉が流行していた頃、私はそれを「ディストピア的な悪夢」と呼ぶ投稿をしました。仮想の世界に没入するのではなく、私たちはもっと、周囲にある現実世界とつながるべきだと主張しました。
メタバースが実を結ぶかは、いずれ時間が経てばわかることでしょう。しかし、2024年・2025年、世界的なビジネス、レジャーを目的にした旅行や支出、ライブイベントへの参加がパンデミック前の水準を大きく上回りました。この現状を見ると、人はヘッドセットの中で生きる存在ではないことが明白になりました。
そして現在に目を向けると、ある人々は、コンテンツが友人や人間のインフルエンサーからではなく、AIそのものから直接生み出される世界を作ろうとしています。次の広告が表示されるまで、あなたの注意を引きつけることに最適化された、ピクセルと波形で構成された人工的に作られた甘美な産物が、コンテンツの源になっています。
数年前に高度なAIの可能性が見え始めたとき、世界がより良くなる未来への期待が溢れていました。医療、マテリアル、製造、ロボティクスにおける飛躍的な進歩が世界をより良い方向へ変え、地球上すべての人々の生活の質を向上させる、そんな期待がありました。
今、私たちは本当にその方向に向かっているのか、改めて問い直すときではないでしょうか。 AIへの莫大な投資のうち、どれほどが人間の生活を真に向上させるのでしょうか。そして、どれほどがただ私たちを楽しませ、気を紛らわせるためだけに使われるのでしょうか。
なぜ「今」重要なのか
大規模言語モデル(LLM)は、技術史上最も破壊的なイノベーションの一つとして登場し、今まさに画期的な時代に突入しています。LLMは、スタートアップから大企業まで、ソフトウェアから半導体、データセンター、さらには電力生成に至るまで、テクノロジー市場のあらゆる側面を根底から覆しています。
OpenAIの設立と「現代的な」AI産業の誕生以降、最大で1兆ドルもの投資が行われてきました。その額は今も日々増え続け、その多くは、巨大で収益性の高いアプリケーションを見越したスケール拡大のため、半導体、サーバー、データセンター、電力といったインフラへの投資として使われています。アナリストによると、AIへの投資額が2030年までに10兆ドルに達する可能性がります。これは、同時期に世界GDPが150兆ドルを超えると予測されていることと比較すると、極めて大きな規模であることがわかります。
さらに重要なのは、その過程で石油やガス、新鮮な水といった貴重な天然資源が大量に消費されていることです。この巨額投資のリターンを示すことへの圧力は高まっており、この巨大でレバレッジの効いた投資が積み重なるにつれて、その圧力は今後さらに高まっていくことでしょう。
そのリターンはどこから生まれるのでしょうか。人類にとってより良い未来を築き、必要な経済的リターンを生み出す道は存在するのでしょうか。
答えは現実世界に
オンライン上の商品やサービスは、世界経済の約20%を占めています。AIは確かに、オンライン広告、ソーシャルネットワーク、ゲームといった分野をより良く、より収益性の高いものにし、ソフトウェアエンジニアリング、カスタマーサポート、マーケティング、法律、医療といったホワイトカラー職種の業務を効率化するでしょう。
一方、世界経済の残り80%はその領域の外、つまり現実世界に存在しています。エネルギー、農業、製造、建設、輸送、物流といった産業がそれに当たります。これらは、私たちを温め、居住させ、食料を提供し、人間が生きていくことを可能にする「原子(モノ)」を、採掘し、精製し、育て、組み立て、組み合わせ、そして運ぶという営みです。これらは、人間にとって最も本質的なニーズであり、チャットボットではありません。
AI全体への莫大な投資を正当化するためには、AIがオンライン経済の20%だけでなく、残りの80%をも変革できると信じる必要があります。もしAIをその領域に解き放ち、人がマシンとどのように共に働くかという移行をうまく管理できれば(これは決して簡単な問題ではないが)、人類全体の生活水準を引き上げる未来を実現できる可能性があるでしょう。それは、AIを実現するために必要な数兆ドル、そして電力や水といった貴重な資源の使用に見合う価値がある未来です。
課題は、AIが様々な面において、スクリーンの中に閉じ込められているということです。インターネット上の膨大なテキストから得られた概念については非常に博識である一方、データセンターの扉の外にある世界、工場の現場、農場、建設現場、製油所、あるいは私たちが暮らす都市については、驚くほど無知です。この巨大な経済領域にAIの力を解き放つためには、世界について、世界と相互作用するスキル、そしてそれを操作するための身体的な形態についてのスキルをAIへ与える必要があります。AIには、現実世界に適応した「脳」と、それを使うための「身体」が必要です。
LLMとワールドモデルだけでは足りない
これこそが、今訪れている機会で、AI業界が「フィジカルAI」「ワールドモデル」「空間知能」と呼ばれるものに注目している理由です。ジェンスン・フアンがヒューマノイドロボットを「次の1兆ドル産業」と呼び、これほどまでに期待しているのもそのためででしょう。AIは、生産性を高め、現実世界で意味のある作業を行うために適応することが可能で、多くの場合、それは人間にとって好ましくない、危険な作業でしょう。
LLM(大規模言語モデル)だけでは、このビジョンを実現するには不十分です。物理AIのためのモデル(動画などの入力を学習し、ロボットの動作を制御するもの)、ワールドモデル(環境がどのように機能し変化するかをシミュレーションし、シーンの合成3Dシミュレーションを生成するものなど)、そして空間モデル(物理世界を捉え、再現するもの)といったモデルも、それぞれ重要な役割を担うでしょう。
物理AIの分野では、シミュレーションやトランスファーラーニングにおけるブレークスルーが、ロボットにより滑らかな動きをもたらしています。これにより、現実世界の物体を動かし、操作する新たなスキルを身につけたロボットが、私たちを驚かせるようになっています。 ワールドモデルは、シミュレーション訓練をより容易かつ現実に近いものにすることで、こうした進展を後押ししています。無限に多様な合成トレーニング環境を生成することで、より高度な学習を可能にしているのです。
これらはいずれも不可欠ではありますが、AIを完全に現実世界へと拡張するには、十分ではありません。
Large Geospatial Modelの構築
Niantic Spatialでは、最後に残された重要なピースである「空間知能」に注力しています。 世界に関わる問題について推論し、計画し、行動するためには、AIは世界を「知って」いなければなりません。しかし、AIには、人類が狩猟採集生活の中で自然に進化させてきたような直感的な空間理解が欠けています。また、AIが学習しているテキスト情報は、物理世界の構造、形状、内容、トポロジーを一貫性と正確さをもって理解することがほとんどできないのが現状です。
ここ数年、私たちはLarge Geospatial Modelの構築に取り組んできました。それは、生きて呼吸するように進化し続ける世界の地図であり、ロボットやAIにとってネイティブな存在です。
これまで私が手がけてきたものとは異なり、これは人のためではなく、マシンのために構築さるマップです。ロボットのナビゲーションやタスク予測を支援し、現実世界のデータに基づく理解を必要とする問いや作業をAIがこなせるようにするためのものです。 このマップは、都市の迷路のような環境でロボットが安全な経路を判断したり、険しい地形を越えて遠隔地へ物資を運搬したり、建設現場や工場内を移動して複数の場所で作業を行ったりすることを可能にします。 さらに、このマップは、郊外環境における火災リスクの算出や、都市の生活の質を向上させるための最適化といった、複雑な現実世界の課題をAIエージェントが解決する手助けにもなります。
Google Maps、Earth、Local、Street Viewなど、人のための地図づくりから学んできたすべてを基盤としつつ、AIが理解できることを主な目的とたマップを開発しています。 Google MapsがWeb 2.0の重要な基盤となったように、Niantic Spatial の地理空間モデルを、AIの未来を支える基盤へと育てたいと考えています。Physical Intelligence、Skild AI、Flexion Roboticsといった企業のフィジカルAIモデルや、World Labs、General Intuition、Nvidiaなどのワールドモデルと連携しながら、その役割を果たしていきます。 これは、Boston Dynamics、Agility Robotics、Apptronikといったロボティクス企業や、製造、農業、医療など各産業向けのモバイルロボットを開発する多くの企業を含む、急速に拡大するエコシステムの一部でもあります。
Niantic Spatial のこれから
多くのイノベーションが同時並行で進められている、とても刺激的な世界です。今後2ヶ月で、Niantic Spatialは、マシンが世界を「見て」、ピンポイント精度でナビゲートすることができる、現実世界を再構築した新しいモデルをリリースします。このモデルは、人と同じようにマシンが現実世界を理解し、インタラクトできるものです。 将来のバージョンでは、ロボットがこの世の中をより深く理解し、予測、問題解決するために必要な意味情報(セマンティック)を追加します。
AIには、間違いなく、大きな可能性があります。しかし、この莫大な投資を、ただ私たちを楽しませたり気を逸らしたりする技術ではなく、真により良い現実を創り出すためのテクノロジーへと向けていけるかどうかは、私たち一人ひとりにかかっています。 それは、きっと誰もが心から期待できる未来ではないでしょうか。
-jh