什麼是 LLM 策略合成?

LLM 策略合成(LLM Policy Synthesis)是一種新興的人工智慧方法,利用大型語言模型直接生成可執行的程式化策略,而非透過傳統強化學習訓練神經網路。具體流程包括:三個核心步驟——首先提示 LLM 產生 Python 策略函數,接著在多智能體環境中進行自我對弈評估,最後根據效能回饋跨迭代精煉策略。

這種方法的核心優勢在於可解釋性高,因為產出的是人類可讀的 Python 程式碼,而非黑箱神經網路。研究團隊将此框架應用於「順序社會困境」(Sequential Social Dilemmas)——這類情境中,智能體需要在短期個人利益與長期群體利益之間取得平衡。

回饋工程的關鍵發現:稀疏 vs 密集回饋

研究最核心的發現是:向 LLM 展示什麼樣的評估資訊,會顯著影響策略改進效果。研究團隊設計了三種回饋機制進行比較:

  • 稀疏回饋(Sparse Feedback):只提供最終遊戲結果,例如獲勝/失敗
  • 密集回饋(Dense Feedback):提供每一步行動的詳細分析,包括每回合的得失分、與對手的相對表現等
  • 對手建模回饋:額外提供對手行為模式的分析

實驗結果顯示,密集回饋能幫助 LLM 更精確地識別策略問題,進而產生更有效的改進方向。

合作與剝削的動態平衡

在順序社會困境中,LLM 生成的策略呈現出有趣的動態。研究觀察到兩種典型策略傾向:

合作策略:追求集體最大利益,願意犧牲短期收益換取長期共贏。例如在「草原遊戲」(The Meadow)中,合作策略會選擇種植而非採集,確保資源可持續再生。

剝削策略:利用對手的合作意圖,採取機會主義行動最大化個人收益。這類策略在短期內往往表現優異,但長期可能導致環境惡化。

關鍵洞察是:透過適當的回饋設計,可以引導 LLM 在迭代過程中自動調整合作與剝削的程度,達到更好的平衡點。

實務應用:如何設計有效的回饋提示詞

根據研究發現,以下是設計策略合成回饋提示詞的具體建議:

步驟一:提供多維度效能指標

不要只給「贏或輸」的結果。建議包含:

  • 每回合的具體得分變化
  • 與基線策略的相對表現
  • 關鍵決策點的分析

步驟二:加入對手行為描述

在提示詞中明確描述對手的策略模式,幫助 LLM 理解互動動態。

步驟三:要求策略生成包含失敗原因分析

提示詞範例:「請分析上一版策略失敗的三個主要原因,並針對每個原因提出具體修改建議。」

步驟四:迭代式改進框架

採用「生成→評估→分析→改進」的循環,每次迭代都基於前次的具體效能數據進行優化。

對提示詞工程師的啟示

這項研究為提示詞工程帶來重要啟示:首先,回饋的品質與詳細程度直接影響輸出品質;其次,在多智能體場景中,加入對手建模資訊可以顯著提升策略適應性;最後,迭代式的回饋循環比一次性生成更能產生高質量策略

對於希望在多智能體系統、AI 遊戲對戰、協作式 AI 等領域應用 LLM 的開發者而言,這些發現提供了具體的提示詞設計原則,幫助構建更聰明、更具適應性的 AI 系統。