Perceptio 是什麼?解決了哪些問題?

大型視覺語言模型(LVLM)在語義理解方面表現優異,但在精細的空間定位(spatial grounding)任務上卻面臨挑戰。原因是模型必須隱式推斷複雜的幾何結構,卻無法產生明確的空間詮釋。

Perceptio 的核心突破在於:在自迴歸序列中直接生成語義分割 Token 和深度 Token,讓 LVLM 能夠進行 2D 和 3D 空間推理,實現「所見即所得」的空間理解能力。

Perceptio 的核心技術架構

Perceptio 的技術創新可分為以下幾個關鍵模組:

  • VQVAE 深度碼本蒸餾:從強大的單目深度估計模型蒸餾出一個 VQVAE 深度碼本,讓模型能夠學習離散化的深度表示。
  • 語義分割 Token 生成:在自迴歸序列中直接生成語義分割結果,實現明確的空間區域識別。
  • 深度 Token 生成:將連續的深度資訊離散化為 Token,讓模型能夠理解場景的 3D 結構。

如何實現 2D 與 3D 空間推理?

Perceptio 的空間推理能力體現在兩個維度:

2D 空間推理

透過語義分割 Token,模型能夠精確識別圖像中每個像素所屬的類別(如人、車、建筑物等),並理解物體之間的空間關係。這使得模型能夠回答「圖中紅色汽車左側的人是誰?」這類需要精確定位的問題。

3D 空間推理

透過深度 Token,模型能夠推斷場景的深度資訊,進而理解物體的實際尺寸和空間分布。例如,模型可以判斷「遠處的公交車比近處的自行車大」,即使兩者在圖像中的像素大小相似。

Perceptio 的應用場景與實用價值

Perceptio 的空間推理能力為多個領域帶來新的可能性:

  • 機器人導航:讓機器人能夠精確理解周圍環境的 3D 結構,實現更安全的路徑規劃。
  • 自動駕駛:提升車輛對場景中物體相對位置的理解,增強安全性。
  • 增強實境(AR):提供更精確的場景理解,實現更自然的 AR 體驗。
  • 圖像問答:回答需要空間推理的複雜問題,如「杯子後面的物體是什麼?」

總結與未來展望

Perceptio 代表了 LVLM 发展的重要方向:從純粹的語義理解邁向同時具備語義和空間理解的多模態推理能力。透過在自迴歸框架中引入明確的感知信號(語義分割和深度),模型能夠產生可解釋的空間輸出,而不仅仅是对隐式几何的推断。

未來的研究方向可能包括:將此方法擴展到更多感知模態(如觸覺、聽覺)、提升 Token 的效率、以及將空間推理能力與更複雜的推理任務結合。