為什麼傳統檢索方式效率低落?

記憶增強代理(Memory-Augmented Agents)是 AI 領域的重要進展,它們能夠維護多個專門化的記憶存儲(specialized stores),用於儲存不同類型的資訊。然而,現有系統存在一個關鍵問題:每當收到查詢時,系統會從所有記憶存儲中同時檢索資料

這種「全面檢索」策略造成兩大問題:

  • 成本增加:檢索所有存儲會消耗大量計算資源和 token
  • 雜訊干擾:引入與查詢無關的上下文,降低答案品質

根據研究數據,均勻檢索(uniform retrieval)方式產生的上下文 tokens 數量可觀,但其中大量資訊對回答問題並無幫助。這就像在口袋裡翻找東西時,明明只需要檢查一個口袋,卻把所有口袋都翻了個遍——浪費時間且效率低落。

什麼是 Store Routing 問題?

研究人員將記憶檢索重新定義為「store routing」問題。簡單來說,就是讓系統學會「該去哪個記憶存儲找答案」。這類似於快遞系統中的路由選擇:快遞員需要根據包裹目的地,選擇最有效的配送路線。

在記憶增強代理中,每個存儲可能專門存放不同類型的資訊,例如:

  • 事實性知識存儲
  • 對話歷史存儲
  • 程式碼範例存儲
  • 領域專業知識存儲

理想的路由系統應該能夠:

  • 理解查詢的意圖和類型
  • 判斷哪些存儲可能包含相關資訊
  • 只檢索最有可能包含答案的存儲

如何評估路由效果?三大關鍵指標

研究採用三個核心指標來評估 store routing 的效果:

1. 覆蓋率(Coverage)

衡量路由決策是否能夠找到所有相關資訊。計算方式為:路由選擇的存儲中包含答案的比例。高覆蓋率代表重要的資訊不被遺漏。

2. 精確匹配(Exact Match)

評估檢索結果是否直接包含正確答案。這是最嚴格的指標,要求檢索內容與標準答案完全一致。

3. Token 效率(Token Efficiency)

衡量達成目標所需的上下文 tokens 數量。這個指標直接關聯到計算成本——tokens 越少,成本越低。

研究結果顯示,神諭路由器(Oracle Router)——即知道最佳選擇的理論最佳系統——能夠在保持高準確度的同時,大幅減少使用的上下文 tokens 數量。這證明了智能路由選擇的巨大潛力。

實作步驟:如何構建成本敏感的路由系統

要實現有效的 store routing,可以遵循以下步驟:

步驟一:定義存儲分類

首先明確定義記憶存儲的類型和職責。例如:

memory_stores = {
    "factual": "儲存事實性知識",
    "conversational": "儲存對話歷史", 
    "technical": "儲存技術文件",
    "contextual": "儲存情境資訊"
}

步驟二:訓練路由分類器

使用機器學習模型,根據查詢內容預測應該存取哪些存儲。可以訓練一個小型分類器,輸入為查詢特徵,輸出為各存儲的存取機率。

步驟三:設定成本閾值

定義檢索成本上限,確保系統在效率與準確度之間取得平衡。例如:

def should_retrieve(store_name, query, cost_threshold=100):
    relevance_score = router.predict(store_name, query)
    return relevance_score > threshold and current_cost < cost_threshold

步驟四:持續優化

根據實際效能回饋,持續調整路由策略和成本閾值。

結論與應用建議

成本敏感路由代表了記憶檢索的重要演進方向。透過智能選擇性地檢索相關存儲,系統可以在以下方面獲得改善:

  • 降低營運成本:減少不必要的 token 消耗
  • 提升回應品質:避免無關資訊干擾答案
  • 加快回應速度:減少檢索和處理時間

對於開發記憶增強代理的團隊,建議從以下方向開始:先分析現有系統的存儲使用模式,識別高頻但低效的檢索場景,再逐步導入路由機制進行優化。