FINER 是什麼?為何需要精細粒度幻覺測試?
多模態大語言模型(Multimodal Large Language Models,簡稱 MLLMs)在處理圖像與文字的結合時,常會產生「幻覺」(hallucination),即生成與圖像實際內容不符的描述。現有的 benchmark 大多聚焦於粗粒度的圖像相關問題,無法有效測試模型在細節層面的表現。
FINER(FIne-grained NEgative queRies)是針對這一缺口而設計的創新評估框架,专门测试 MLLMs 在精細粒度查詢下的幻覺問題。研究團隊發現,當被問及圖像中特定物體的數量、屬性或關係時,許多頂級 MLLMs 會產生錯誤的回應。
根據研究,使用 FINER 測試後發現,即使是最先進的模型在面對精細查詢時,幻覺率也顯著高於預期。這表明現有評估標準可能低估了 MLLMs 的真實問題。
FINER 兩大 Benchmark:CompreCap 與 DOCCI
FINER 框架包含兩個專門設計的 benchmark:
- FINER-CompreCap:基於詳細的圖像描述數據集,測試模型對場景中多個物體、屬性和關係的理解能力
- FINER-DOCCI:使用 DOCCI(Detailed Object-Context Composition Image)數據集,專注於評估模型對物體之間上下文關係的掌握程度
這兩個 benchmark 的共同特點是包含大量「負面查詢」(negative queries),即詢問圖像中不存在的物體、屬性或關係。如果模型回答「是」或給出肯定回應,就代表產生幻覺。
四種測試場景詳解
FINER 採用四種核心測試場景來全面評估 MLLMs 的幻覺問題:
1. 多物體查詢(Multi-Object)
詢問圖像中是否包含多個特定物體。例如:「圖片中有一隻紅色的貓和一隻黑色的狗嗎?」此測試檢驗模型是否能正確識別多個獨立物體。
2. 多屬性查詢(Multi-Attribute)
詢問物體的多重屬性組合。例如:「那件襯衫是藍色、短袖、且有領子嗎?」此測試評估模型對單一物體多個屬性的理解。
3. 多關係查詢(Multi-Relation)
詢問多個物體之間的空間或動作關係。例如:「貓是否正在追逐狗,且狗在貓的左側?」此測試檢驗模型對複雜場景的理解。
4. 特殊疑問句("What" Questions)
使用「什麼」提問來測試模型對場景細節的掌握。例如:「書包上方有什麼物品?」此測試評估模型的開放式回答能力。
主要發現:MLLMs 幻覺的關鍵洞察
研究結果揭示了幾個重要發現:
- 精細查詢大幅增加幻覺率:相比粗粒度問題,當問題涉及具體數量、位置或屬性時,幻覺率顯著上升
- 現有 benchmark 低估問題嚴重性:傳統評估方式無法捕捉到模型在細節層面的失敗
- 模型規模與幻覺非簡單相關:較大的模型不一定能減少精細查詢下的幻覺
- 負面查詢特別有效:詢問不存在的事物能更有效揭示模型的幻想傾向
實際應用與未來方向
FINER 的出現為 MLLM 開發者提供了重要的評估工具。建議採用以下步驟改進模型:
- 在訓練數據中增加精細粒度的圖像描述對
- 加入對負面查詢的專門訓練
- 使用 FINER 定期測試模型表現
- 針對多屬性、多關係場景設計專門的微調策略
隨著多模態 AI 系統在實際應用中的普及,FINER 這類精細粒度評估工具將變得越來越重要。