PRISM 研究:解答 LLM 中訓練的核心問題
什麼樣的中訓練(Mid-Training)策略能最有效提升大型語言模型的能力?PRISM 研究給出了明確答案:約 27B 高品質 tokens 的中訓練可帶來一致的效能提升,數學能力提升 15-40 分、程式碼能力提升 5-12 分、推理能力提升 6-13 分。這項涵蓋 7 種基礎模型、4 個模型家族、3B 至 24B 參數規模的全面實證研究,為 LLM 訓練提供了寶貴的實踐指引。
研究背景與實驗設計
PRISM 研究旨在系統性探索中訓練階段的關鍵設計選擇。中訓練指的是在預訓練和指令微調之間的階段,這個階段的設計決策往往缺乏明確指導。研究團隊選擇了四個模型家族進行實驗:
- Granite:IBM 開發的企業級模型家族
- LLaMA:Meta 開源的主流模型系列
- Mistral:以高效能著稱的歐洲模型
- Nemotron-H:NVIDIA 開發的 HPC 優化模型
實驗同時涵蓋兩種架構類型:傳統的 Dense Transformer 以及創新的 attention-Mamba 混合架構,這使得研究結論具有廣泛的適用性。
中訓練的關鍵發現
1. 資料品質與數量的平衡
研究發現,27B 高品質 tokens 是中訓練的黃金標準。過少的訓練資料無法充分激發模型潛能,過多則可能導致過擬合或資源浪費。實驗結果顯示,使用高品質過濾的資料集比單純增加資料量更有效。
2. 模型規模的影響
從 3B 到 24B 參數的實驗表明,較大的模型從中訓練中獲益更多。24B 參數模型在數學基準測試中提升最為顯著,達到 40 分的進步,這暗示中訓練對模型推理能力的增強效果與模型容量成正比。
3. 架構差異
Dense Transformer 和 attention-Mamba 混合架構從中訓練中都能獲得提升,但提升模式略有不同。混合架構在需要長期記憶的任務中表現更佳,而標準 Transformer 在結構化推理任務中優勢明顯。
實踐建議:如何應用 PRISM 發現
基於 PRISM 研究結果,以下是中訓練的最佳實踐:
- 步驟一:資料品質優先 - 投入資源過濾高品質訓練資料,確保 token 品質而非僅追求數量
- 步驟二:控制訓練規模 - 將中訓練規模設定在 20-30B tokens 範圍內
- 步驟三:根據目標選擇架構 - 若目標是數學推理,優先選擇較大參數規模;若需要高效能,可考慮 Mamba 混合架構
- 步驟四:分階段評估 - 在訓練過程中定期在數學、程式碼、推理基準上評估模型表現
結論與未來展望
PRISM 研究填補了 LLM 訓練方法論中的重要空白,為中訓練階段提供了實證基礎的設計原則。隨著模型規模持續增长,這些發現對於資源優化和模型效能提升具有重要指導意義。未來研究可進一步探索不同領域專業知識的中訓練策略,以及如何動態調整訓練資料組成以適應特定任務需求。