什麼是 AI 上下文Context?為何它很重要?

AI 上下文指的是語言模型在生成回應時所能「記住」並理解的資訊範圍。這個概念類似於人類的短期記憶——模型需要足夠的上下文才能產生連貫、準確的回應。當上下文不足時,AI 可能會遺忘對話早期的重要資訊,導致回應前後不一致或產生幻覺(hallucination)。理解上下文機制是優化 AI 應用的第一步。

Token 限制:理解 AI 的記憶邊界

Token 是 AI 處理資訊的基本單位,一個 Token 可能是一個單字、子詞或字符。大多數語言模型都有上下文長度限制,例如 GPT-4 Turbo 支援 128K Tokens,Claude 3.5 可達 200K Tokens。工程師需要計算對話歷史的 Token 數量,確保不超過模型限制。

  • 實用公式: 1個英文單詞 ≈ 1.3 Tokens;1個中文字 ≈ 1.5-2 Tokens
  • 監控工具: 使用 tiktoken 庫即時計算 Token 數量

三種主要的上下文管理策略

1. 滑動視窗(Sliding Window)

這是最基礎的方法,只保留最近 N 個 Tokens 的對話歷史。適合簡單對話場景,但可能遺漏早期關鍵資訊。

2. 摘要記憶(Summarization)

定期將舊對話濃縮成摘要,騰出空間容納新內容。適合長對話應用,能在有限上下文內保持連貫性。

3. 外部向量資料庫(Vector Database)

將重要資訊儲存於向量資料庫,透過語意檢索動態擷取相關內容。這是 RAG(檢索增強生成)架構的核心技術。

Prompt 工程中的上下文優化技巧

  • 明確角色: 在提示開頭指定 AI 角色,如「你是一位專業的 Python 工程師」
  • 結構化輸入: 使用 XML 標籤或 Markdown 格式區分不同類型的上下文資訊
  • 範例示範: 提供 2-3 個輸入輸出範例(few-shot learning)
  • 清晰指令: 將重要要求放在提示開頭,避免被遺忘

建立可擴展的上下文架構

對於需要處理大量資訊的企業級應用,建議採用以下架構:

  1. 分層儲存: 對話歷史 → 工作記憶 → 長期知識庫
  2. 自動壓縮: 當 Token 接近上限時,自動觸發摘要生成
  3. 語意檢索: 根據當前查詢,動態從知識庫中擷取最相關的上下文

這種設計能在成本效益和回應品質之間取得平衡,支援更複雜的 AI 應用場景。