FINER 是什麼?為何需要精細粒度幻覺測試?

多模態大語言模型(Multimodal Large Language Models,簡稱 MLLMs)在處理圖像與文字的結合時,常會產生「幻覺」(hallucination),即生成與圖像實際內容不符的描述。現有的 benchmark 大多聚焦於粗粒度的圖像相關問題,無法有效測試模型在細節層面的表現。

FINER(FIne-grained NEgative queRies)是針對這一缺口而設計的創新評估框架,专门测试 MLLMs 在精細粒度查詢下的幻覺問題。研究團隊發現,當被問及圖像中特定物體的數量、屬性或關係時,許多頂級 MLLMs 會產生錯誤的回應。

根據研究,使用 FINER 測試後發現,即使是最先進的模型在面對精細查詢時,幻覺率也顯著高於預期。這表明現有評估標準可能低估了 MLLMs 的真實問題。

FINER 兩大 Benchmark:CompreCap 與 DOCCI

FINER 框架包含兩個專門設計的 benchmark:

  • FINER-CompreCap:基於詳細的圖像描述數據集,測試模型對場景中多個物體、屬性和關係的理解能力
  • FINER-DOCCI:使用 DOCCI(Detailed Object-Context Composition Image)數據集,專注於評估模型對物體之間上下文關係的掌握程度

這兩個 benchmark 的共同特點是包含大量「負面查詢」(negative queries),即詢問圖像中不存在的物體、屬性或關係。如果模型回答「是」或給出肯定回應,就代表產生幻覺。

四種測試場景詳解

FINER 採用四種核心測試場景來全面評估 MLLMs 的幻覺問題:

1. 多物體查詢(Multi-Object)

詢問圖像中是否包含多個特定物體。例如:「圖片中有一隻紅色的貓和一隻黑色的狗嗎?」此測試檢驗模型是否能正確識別多個獨立物體。

2. 多屬性查詢(Multi-Attribute)

詢問物體的多重屬性組合。例如:「那件襯衫是藍色、短袖、且有領子嗎?」此測試評估模型對單一物體多個屬性的理解。

3. 多關係查詢(Multi-Relation)

詢問多個物體之間的空間或動作關係。例如:「貓是否正在追逐狗,且狗在貓的左側?」此測試檢驗模型對複雜場景的理解。

4. 特殊疑問句("What" Questions)

使用「什麼」提問來測試模型對場景細節的掌握。例如:「書包上方有什麼物品?」此測試評估模型的開放式回答能力。

主要發現:MLLMs 幻覺的關鍵洞察

研究結果揭示了幾個重要發現:

  • 精細查詢大幅增加幻覺率:相比粗粒度問題,當問題涉及具體數量、位置或屬性時,幻覺率顯著上升
  • 現有 benchmark 低估問題嚴重性:傳統評估方式無法捕捉到模型在細節層面的失敗
  • 模型規模與幻覺非簡單相關:較大的模型不一定能減少精細查詢下的幻覺
  • 負面查詢特別有效:詢問不存在的事物能更有效揭示模型的幻想傾向

實際應用與未來方向

FINER 的出現為 MLLM 開發者提供了重要的評估工具。建議採用以下步驟改進模型:

  1. 在訓練數據中增加精細粒度的圖像描述對
  2. 加入對負面查詢的專門訓練
  3. 使用 FINER 定期測試模型表現
  4. 針對多屬性、多關係場景設計專門的微調策略

隨著多模態 AI 系統在實際應用中的普及,FINER 這類精細粒度評估工具將變得越來越重要。