📰 科技趨勢

Perceptio：透過空間 Token 生成增強視覺語言模型的空間推理能力

📅 2026-03-24 ⏱ 8 分鐘閱讀 ✍️ AI 學習寶庫

Perceptio 是什麼？解決了哪些問題？

大型視覺語言模型（LVLM）在語義理解方面表現優異，但在精細的空間定位（spatial grounding）任務上卻面臨挑戰。原因是模型必須隱式推斷複雜的幾何結構，卻無法產生明確的空間詮釋。

Perceptio 的核心突破在於：在自迴歸序列中直接生成語義分割 Token 和深度 Token，讓 LVLM 能夠進行 2D 和 3D 空間推理，實現「所見即所得」的空間理解能力。

Perceptio 的技術創新可分為以下幾個關鍵模組：

Perceptio 的空間推理能力體現在兩個維度：

透過語義分割 Token，模型能夠精確識別圖像中每個像素所屬的類別（如人、車、建筑物等），並理解物體之間的空間關係。這使得模型能夠回答「圖中紅色汽車左側的人是誰？」這類需要精確定位的問題。

透過深度 Token，模型能夠推斷場景的深度資訊，進而理解物體的實際尺寸和空間分布。例如，模型可以判斷「遠處的公交車比近處的自行車大」，即使兩者在圖像中的像素大小相似。

Perceptio 的空間推理能力為多個領域帶來新的可能性：

Perceptio 代表了 LVLM 发展的重要方向：從純粹的語義理解邁向同時具備語義和空間理解的多模態推理能力。透過在自迴歸框架中引入明確的感知信號（語義分割和深度），模型能夠產生可解釋的空間輸出，而不仅仅是对隐式几何的推断。

未來的研究方向可能包括：將此方法擴展到更多感知模態（如觸覺、聽覺）、提升 Token 的效率、以及將空間推理能力與更複雜的推理任務結合。

傳統 LVLM 主要依賴隱式推斷來理解空間關係，往往缺乏明確的空間輸出。Perceptio 的創新在於在自迴歸序列中直接生成語義分割 Token 和深度 Token，讓模型能夠產生可解釋的 2D 和 3D 空間表示。

VQVAE 深度碼本將連續的深度資訊離散化為離散的 Token，讓深度資訊夠夠夠入語言模型的離散 token 空間中。這種設計借鑒了語言模型處理文本的方式來處理深度資訊。

Perceptio 的空間推理能力適用於多個領域，包括自動駕駛（理解物體相對位置）、機器人導航（3D 環境理解）、增強實境（精確場景感知），以及需要空間推理的圖像問答系統。

繼續探索更多科技趨勢內容