📰 科技趨勢

視頻微調如何影響多模態大語言模型？研究揭示時間與空間理解的權衡

📅 2026-03-19 ⏱ 8 分鐘閱讀 ✍️ AI 學習寶庫

研究核心發現：時間與空間的權衡取捨

這項研究回答了一個關鍵問題：視頻監督微調（Video-SFT）對多模態大語言模型（MLLMs）的視覺能力究竟有何影響？

研究結論明確指出：Video-SFT 會顯著增強模型的時間理解能力，但同時可能損害空間理解能力。這是一個典型的「Temporal Gains, Spatial Costs」現象。對於 AI 工程師而言，這意味著在訓練多模態模型時，需要在時間序列理解與空間細節識別之間做出策略性取捨。

研究團隊覆蓋多種架構和參數規模進行系統性實驗，證實這一現象在不同模型配置下普遍存在，為實際應用提供了重要的指導原則。

Video-SFT（Video Supervised Fine-Tuning）是多模態大語言模型訓練流程中的關鍵環節。MLLMs 的訓練通常分為多個階段：

傳統觀點認為，引入視頻數據可以全面提升模型的視覺理解能力。然而，這項研究顛覆了這一假設——視頻數據的引入並非無代價，而是會產生獨特的能力演化模式。

研究結果顯示，Video-SFT 在時間維度上帶來了顯著提升：

例如，當模型看到一段人類跑步的視頻時，經過 Video-SFT 訓練的模型能夠正確描述「從起步到加速再到衝刺」的完整過程，而不僅僅是識別靜態姿勢。

與時間理解的提升相對，研究發現空間理解能力可能出現下降：

這是因為視頻數據的引入使模型傾向於關注時序變化，而相對忽視單幀圖像中的空間細節。在實際應用中，工程師需要根據任務需求權衡這一取捨。

基於研究發現，作者提出了具體的訓練策略建議：

總結而言，這項研究為多模態大語言模型的訓練提供了重要的科學依據，幫助工程師在實際應用中做出更明智的技術決策。

不會變得更差，而是會產生「時間增強、空間折衷」的效果。模型在時間序列理解（如動作識別、事件預測）方面會明顯提升，但空間細節識別能力可能略有下降。這種權衡取捨需要根據具體應用場景來評估。

研究建議採用「混合訓練策略」：在 Video-SFT 後接續圖像監督微調，或者採用圖像-視頻混合的訓練數據配比。這種方式可以在保持時間理解能力的同時，恢復或維持空間理解表現。

AI 工程師在設計多模態模型訓練流程時，應根據任務需求選擇合適的訓練策略。對於視頻相關任務（如影片摘要、行為識別），Video-SFT 是必要的；對於需要精確空間理解的任務（如物體檢測），則需要謹慎規劃訓練數據的配比。

繼續探索更多科技趨勢內容