什麼是 Chain-of-Trajectories(CoTj)?
Chain-of-Trajectories(CoTj)是一種創新的無訓練(train-free)框架,旨在將擴散模型從依賴直覺的「系統1」模式,升級為具備深思熟慮規劃能力的「系統2」模式。傳統的擴散模型在生成內容時,採用固定且與內容無關的採樣調度(sampling schedule),這種方式雖然高效,但缺乏針對性的規劃能力。
CoTj 的核心概念是引入「軌跡鏈」的機制,讓模型能夠在生成過程中進行顯式的路徑規劃。這種方法特別適合需要精確控制的生成任務,例如圖像編輯、風格遷移或是根據特定條件的內容創作。
擴散模型的系統1困境:維度詛咒
擴散模型在生成過程中面臨一個根本性的挑戰:狀態維度的詛咒(curse of state dimensionality)。當模型在高維度雜訊流形(noise manifold)中運作時,可能的狀態數量呈現組合式爆炸,使得明確的軌跡規劃變得不可行。
這導致了系統性的計算資源錯誤配置:模型在簡單區域浪費過多運算資源,而在複雜區域卻未能給予足夠的生成步驟。換句話說,傳統的均勻採樣策略無法根據生成內容的實際難度動態調整計算分配。
CoTj 的圖論規劃方法
CoTj 採用圖論(graph-theoretic)方法來解決軌跡規劃問題。具體來說,它將生成過程建模為圖結構中的路徑搜尋問題,其中每個節點代表一個可能的生成狀態,邊則代表狀態之間的轉換。
透過這種建模,CoTj 能夠:
- 識別關鍵決策點:在生成路徑上找出需要更多計算資源的關鍵節點
- 優化資源分配:根據實際生成難度動態調整各區域的採樣步驟
- 保持內容相關性:規劃過程考慮最終生成目標,而非採用通用策略
實作步驟:在擴散模型中應用 CoTj
以下是將 CoTj 整合到現有擴散模型 Pipeline 的基本步驟:
步驟1:建立狀態圖
在雜訊空間中建立離散化的狀態圖結構,定義節點之間的連接關係和轉換成本。
步驟2:定義目標函數
根據最終生成目標,設計用於評估路徑質量的目標函數,包含內容相關性和生成效率兩個維度。
步驟3:執行圖搜尋
使用最短路徑演算法(如 A* 或 Dijkstra)在圖結構中找到最優生成軌跡。
步驟4:動態採樣
根據規劃結果,對不同區域採用非均勻的採樣策略,難度較高的區域分配更多計算資源。
步驟5:迭代優化
根據生成結果回饋,動態調整後續的規劃策略,形成閉環優化。
CoTj 的應用場景與未來展望
CoTj 的出現為多個 AI 應用領域帶來新的可能性:
- 複雜場景生成:需要多物體協調的場景可以透過規劃確保各元素的一致性
- 可控生成任務:根據文字描述、姿態控制等條件進行更精確的生成
- 計算資源優化:在保持輸出品質的前提下減少整體計算成本
隨著研究的深入,CoTj 代表了生成式 AI 從「快速直覺」走向「慢速思考」的重要趨勢,這種 System 2 的規劃能力將成為下一代 AI 系統的核心特徵。