研究核心發現:對齊模型不等同於描述人類行為

最新研究顛覆了一個常見假設:對齊(alignment)後的語言模型在預測人類實際行為方面,表現遠不如基礎模型。研究團隊比較了120 組基礎模型與對齊模型配對,涵蓋超過10,000 個真實人類決策,結果發現基礎模型的預測準確率比對齊模型高出近10 倍

這個發現挑戰了 AI 領域的一個核心迷思:我們常以為讓模型「更像人類」就能更好地預測人類行為,但實際上,對齊優化的是人類偏好信號,而非觀察到的人類實際行為模式。

什麼是對齊訓練?為何它會影響模型行為?

對齊訓練(Alignment Training)是 OpenAI、Anthropic 等公司用來讓 AI 輸出更安全、更符合人類價值觀的關鍵技術。主要方法包括:

  • RLHF(人類反饋強化學習):用人類評分來調整模型輸出
  • DPO(直接偏好優化):直接學習人類偏好的排序
  • Constitutional AI:用規則約束模型行為

這些技術確實讓模型輸出更「禮貌」、更「安全」,但也讓模型偏離了人類真實的決策模式。簡單來說:對齊模型學習的是「人類想要什麼」,而不是「人類實際上會做什麼」

實驗設計:多輪策略遊戲中的真實人類決策

研究團隊選擇了四種典型的多輪策略互動場景:

  • 談判(Negotiation):雙方協商資源分配
  • 說服(Persuasion):一方向另一方傳達觀點
  • 討價還價(Bargaining):反覆協商達成共識
  • 重複矩陣遊戲(Repeated Matrix Games):多次互動的策略選擇

在這些需要理解對手心理、權衡長期利益的場景中,基礎模型展現出壓倒性的優勢。這個結果在多個模型家族中都非常穩健,包括 GPT、LLaMA、Claude 等系列。

對提示詞工程師的實際啟示

如果你想讓 AI 更好地預測或模擬人類行為,可以考慮以下策略:

步驟一:評估你的使用場景

  • 需要預測人類實際行為?→ 考慮使用基礎模型
  • 需要安全、合規的輸出?→ 繼續使用對齊模型

步驟二:提示詞技巧

若使用對齊模型,可以嘗試:

  • 明確要求模型「模擬真實人類在這種情況下的選擇」
  • 使用系統提示詞引導模型跳過對齊過濾
  • 考慮使用few-shot 示例展示真實人類行為模式

步驟三:模型選擇建議

# 需要預測人類行為時
可以使用:GPT-4 base、LLaMA base、Mistral base

# 需要安全輸出時
繼續使用:ChatGPT、Claude、GPT-4 aligned

結論與未來展望

這項研究揭示了一個重要真相:AI 的「禮貌程度」與「預測人類行為的能力」是兩個正交維度。對齊訓練讓模型更討喜,但犧牲了對人類真實行為模式的捕捉能力。

對於提示詞工程師而言,這意味著需要根據具體目標選擇合適的模型。未來的 AI 系統可能需要同時具備「對齊能力」和「行為預測能力」,或者在兩者之間取得更好的平衡。