💡 提示词

對人類行為預測：基礎模型為何比對齊模型更準確？

📅 2026-03-19 ⏱ 8 分钟阅读 ✍️ AI 学习宝库

研究核心發現：對齊模型不等同於描述人類行為

最新研究顛覆了一個常見假設：對齊（alignment）後的語言模型在預測人類實際行為方面，表現遠不如基礎模型。研究團隊比較了120 組基礎模型與對齊模型配對，涵蓋超過10,000 個真實人類決策，結果發現基礎模型的預測準確率比對齊模型高出近10 倍。

這個發現挑戰了 AI 領域的一個核心迷思：我們常以為讓模型「更像人類」就能更好地預測人類行為，但實際上，對齊優化的是人類偏好信號，而非觀察到的人類實際行為模式。

對齊訓練（Alignment Training）是 OpenAI、Anthropic 等公司用來讓 AI 輸出更安全、更符合人類價值觀的關鍵技術。主要方法包括：

這些技術確實讓模型輸出更「禮貌」、更「安全」，但也讓模型偏離了人類真實的決策模式。簡單來說：對齊模型學習的是「人類想要什麼」，而不是「人類實際上會做什麼」。

研究團隊選擇了四種典型的多輪策略互動場景：

在這些需要理解對手心理、權衡長期利益的場景中，基礎模型展現出壓倒性的優勢。這個結果在多個模型家族中都非常穩健，包括 GPT、LLaMA、Claude 等系列。

如果你想讓 AI 更好地預測或模擬人類行為，可以考慮以下策略：

若使用對齊模型，可以嘗試：

# 需要預測人類行為時
可以使用：GPT-4 base、LLaMA base、Mistral base

# 需要安全輸出時
繼續使用：ChatGPT、Claude、GPT-4 aligned

這項研究揭示了一個重要真相：AI 的「禮貌程度」與「預測人類行為的能力」是兩個正交維度。對齊訓練讓模型更討喜，但犧牲了對人類真實行為模式的捕捉能力。

對於提示詞工程師而言，這意味著需要根據具體目標選擇合適的模型。未來的 AI 系統可能需要同時具備「對齊能力」和「行為預測能力」，或者在兩者之間取得更好的平衡。

基礎模型（Base Model）是未經人類偏好微調的版本，直接預測下一個 token；對齊模型（Aligned Model）經過 RLHF 或 DPO 等技術訓練，輸出更安全、更符合人類價值觀，但偏離了人類真實行為模式。

對齊訓練優化的是「人類偏好信號」（人類想要什麼），而非「人類實際行為」（人類會做什麼）。基礎模型保留了更完整的人類語言分布，因此在預測真實人類決策時表現更好。

需要預測人類行為（如遊戲 AI、用戶行為模擬）時選用基礎模型；需要安全、合規輸出（如客服機器人、內容生成）時使用對齊模型。也可透過提示詞技巧引導對齊模型模擬人類行為。

继续探索更多提示词内容