🔄 Workflows

增強法律 LLM 準確性：元資料豐富化 RAG 與 DPO 優化實戰指南

📅 2026-03-23 ⏱ 5 min read ✍️ AI Learning Hub

This article is written in Chinese. Use your browser's translation feature for other languages.

核心問題：法律 LLM 為何容易產生幻覺？

大型語言模型（LLM）在短上下文任務上表現優異，但在處理長法律文件時準確度大幅下降。這是因為法律文書通常包含數十頁甚至數百頁的條款、判例和法規，遠超過一般模型的處理能力。

在法律領域，準確性至關重要。模型產生的「幻覺」（hallucination）可能導致：

這些錯誤會嚴重損害法律專業人員對 AI 系統的信任，也無法符合資料隱私的要求——許多法律機構需要在本地部署模型，防止敏感資料外洩。

傳統的檢索增強生成（RAG）在法律場域效果有限。研究者提出「元資料豐富化」方法，透過以下步驟強化檢索品質：

為法律文件添加結構化元資料，包括：

使用小型模型自動產生文件的語義標籤，例如：「智慧財產權侵權」、「勞動糾紛」、「不動產交易」等。這些標籤可作為檢索時的過濾條件。

結合向量檢索與關鍵字檢索，並利用元資料進行結果過濾與排序，確保檢索到的內容與查詢高度相關。

除了改進檢索系統，研究者還引入直接偏好優化（Direct Preference Optimization, DPO）來微調語言模型。DPO 的核心概念是：

不需人類標註的獎勵模型，而是直接學習人類偏好的排序結果。具體做法如下：

DPO 的優勢在於訓練穩定、計算效率高，特別適合需要在本地部署的小型模型。

將元資料豐富化 RAG 與 DPO 整合的完整工作流如下：

此工作流可在本地伺服器執行，確保敏感法律資料不會離開機構網路。

根據研究，元資料豐富化 RAG 配合 DPO 可顯著降低法律 LLM 的幻覺率。實務上，建議注意以下要點：

這套方法特別適合律師事務所、法務部門與法律科技公司，可在保障資料隱私的前提下，提供可靠的法律 AI 輔助工具。

元資料豐富化 RAG 是在傳統檢索增強生成的基礎上，為法律文件添加結構化元資料（如文件類型、適用法域、法律領域等）和語義標籤。這些元資料可作為檢索時的過濾條件，提升檢索結果的相關性與準確性，減少模型產生幻覺的機會。

直接偏好優化（DPO）與基於人類反饋的強化學習（RLHF）的主要差異在於：DPO 不需要訓練獎勵模型，而是直接學習人類對答案的偏好排序。這使得訓練過程更穩定、計算效率更高，非常適合需要在本地部署的小型法律 LLM。

整個工作流都可以在本地伺服器執行。文件處理、元資料生成、向量化儲存、模型微調與推理都在機構內部網路完成，敏感法律資料不會傳送到外部雲端服務，符合法律業者的資料保密需求。

Explore more Workflows content