WiT 是什麼?突破像素空間限制的新型擴散模型

WiT(Waypoint Diffusion Transformers via Trajectory Conflict Navigation)是一種創新的擴散模型架構,專門解決傳統 Flow Matching 模型在像素空間操作時的軌跡衝突問題。與現有方法不同,WiT 不依賴潛在表示(latent representations)來規避問題,而是直接在像素空間中「解開」交織的軌跡,實現更優質的生成結果。

傳統的 Flow Matching 模型雖然避免了潛在自編碼器的重建瓶頸,但像素流形缺乏語義連續性的問題,導致最優傳輸路徑相互纏繞,特別是在交叉點附近產生嚴重的軌跡衝突,最終生成次優結果。

為什麼像素空間會產生軌跡衝突?

在像素空間中操作時,相鄰像素並不具有語義上的連續性。舉例來說,生成一張人臉圖像時,眼睛、鼻子、嘴巴等特徵在像素層面可能是完全獨立的區域,沒有自然平滑的過渡路徑。

這種語義斷裂會導致以下問題:

  • 路徑纏繞:不同區域的生成路徑相互交叉
  • 交叉點衝突:多個生成目標在同一位點競爭
  • 次優收斂:模型無法找到真正的最優傳輸路徑

例如,當模型同時生成天空和地面時,兩者的像素軌跡可能在某處交織,導致生成結果出現偽影或模糊。

WiT 的核心技術:軌跡衝突導航機制

WiT 提出了「軌跡衝突導航」(Trajectory Conflict Navigation)機制來解決上述問題。其核心思想是在生成過程中引入「路標點」(Waypoints),引導模型繞過衝突區域。

運作原理三步驟:

  • 軌跡檢測:識別即將發生衝突的像素路徑
  • 路標插入:在衝突點前放置引導路標,重新規劃路徑
  • 平滑過渡:利用 Transformer 架構實現路標間的平滑過渡

這就像是在擁堵的交通中加入智慧導航系統,引導車流繞過事故路段,而不是讓所有車輛在原地等待。

WiT 的實際應用與優勢

相比傳統方法,WiT 帶來顯著提升:

  • 更高生成品質:避免軌跡衝突產生的偽影
  • 更快速收斂:減少不必要的迭代次數
  • 保留像素空間優勢:保持直接操作的簡單性

在實際應用中,WiT 可用於高解析度圖像生成、視頻生成、以及需要精確控制的生成任務。

結論與未來展望

WiT 代表了一種新的思路:不迴避像素空間的挑戰,而是正面解決它。通過軌跡衝突導航機制,WiT 在保持像素空間操作簡單性的同時,顯著提升了生成品質。

未來,這項技術有望與更大的 Transformer 架構結合,進一步提升生成效率和控制能力。