什麼是 AI 上下文Context?為何它很重要?
AI 上下文指的是語言模型在生成回應時所能「記住」並理解的資訊範圍。這個概念類似於人類的短期記憶——模型需要足夠的上下文才能產生連貫、準確的回應。當上下文不足時,AI 可能會遺忘對話早期的重要資訊,導致回應前後不一致或產生幻覺(hallucination)。理解上下文機制是優化 AI 應用的第一步。
Token 限制:理解 AI 的記憶邊界
Token 是 AI 處理資訊的基本單位,一個 Token 可能是一個單字、子詞或字符。大多數語言模型都有上下文長度限制,例如 GPT-4 Turbo 支援 128K Tokens,Claude 3.5 可達 200K Tokens。工程師需要計算對話歷史的 Token 數量,確保不超過模型限制。
- 實用公式: 1個英文單詞 ≈ 1.3 Tokens;1個中文字 ≈ 1.5-2 Tokens
- 監控工具: 使用
tiktoken庫即時計算 Token 數量
三種主要的上下文管理策略
1. 滑動視窗(Sliding Window)
這是最基礎的方法,只保留最近 N 個 Tokens 的對話歷史。適合簡單對話場景,但可能遺漏早期關鍵資訊。
2. 摘要記憶(Summarization)
定期將舊對話濃縮成摘要,騰出空間容納新內容。適合長對話應用,能在有限上下文內保持連貫性。
3. 外部向量資料庫(Vector Database)
將重要資訊儲存於向量資料庫,透過語意檢索動態擷取相關內容。這是 RAG(檢索增強生成)架構的核心技術。
Prompt 工程中的上下文優化技巧
- 明確角色: 在提示開頭指定 AI 角色,如「你是一位專業的 Python 工程師」
- 結構化輸入: 使用 XML 標籤或 Markdown 格式區分不同類型的上下文資訊
- 範例示範: 提供 2-3 個輸入輸出範例(few-shot learning)
- 清晰指令: 將重要要求放在提示開頭,避免被遺忘
建立可擴展的上下文架構
對於需要處理大量資訊的企業級應用,建議採用以下架構:
- 分層儲存: 對話歷史 → 工作記憶 → 長期知識庫
- 自動壓縮: 當 Token 接近上限時,自動觸發摘要生成
- 語意檢索: 根據當前查詢,動態從知識庫中擷取最相關的上下文
這種設計能在成本效益和回應品質之間取得平衡,支援更複雜的 AI 應用場景。