📰 Tendencias Tech

FINER：多模態大語言模型的精細粒度幻覺測試 benchmark

📅 2026-03-19 ⏱ 5 min de lectura ✍️ AI Learning Hub

Este artículo está escrito en chino. Utilice la función de traducción de su navegador para otros idiomas.

FINER 是什麼？為何需要精細粒度幻覺測試？

多模態大語言模型（Multimodal Large Language Models，簡稱 MLLMs）在處理圖像與文字的結合時，常會產生「幻覺」（hallucination），即生成與圖像實際內容不符的描述。現有的 benchmark 大多聚焦於粗粒度的圖像相關問題，無法有效測試模型在細節層面的表現。

FINER（FIne-grained NEgative queRies）是針對這一缺口而設計的創新評估框架，专门测试 MLLMs 在精細粒度查詢下的幻覺問題。研究團隊發現，當被問及圖像中特定物體的數量、屬性或關係時，許多頂級 MLLMs 會產生錯誤的回應。

根據研究，使用 FINER 測試後發現，即使是最先進的模型在面對精細查詢時，幻覺率也顯著高於預期。這表明現有評估標準可能低估了 MLLMs 的真實問題。

FINER 兩大 Benchmark：CompreCap 與 DOCCI

FINER 框架包含兩個專門設計的 benchmark：

FINER-CompreCap：基於詳細的圖像描述數據集，測試模型對場景中多個物體、屬性和關係的理解能力
FINER-DOCCI：使用 DOCCI（Detailed Object-Context Composition Image）數據集，專注於評估模型對物體之間上下文關係的掌握程度

這兩個 benchmark 的共同特點是包含大量「負面查詢」（negative queries），即詢問圖像中不存在的物體、屬性或關係。如果模型回答「是」或給出肯定回應，就代表產生幻覺。

四種測試場景詳解

FINER 採用四種核心測試場景來全面評估 MLLMs 的幻覺問題：

1. 多物體查詢（Multi-Object）

詢問圖像中是否包含多個特定物體。例如：「圖片中有一隻紅色的貓和一隻黑色的狗嗎？」此測試檢驗模型是否能正確識別多個獨立物體。

2. 多屬性查詢（Multi-Attribute）

詢問物體的多重屬性組合。例如：「那件襯衫是藍色、短袖、且有領子嗎？」此測試評估模型對單一物體多個屬性的理解。

3. 多關係查詢（Multi-Relation）

詢問多個物體之間的空間或動作關係。例如：「貓是否正在追逐狗，且狗在貓的左側？」此測試檢驗模型對複雜場景的理解。

4. 特殊疑問句（"What" Questions）

使用「什麼」提問來測試模型對場景細節的掌握。例如：「書包上方有什麼物品？」此測試評估模型的開放式回答能力。

主要發現：MLLMs 幻覺的關鍵洞察

研究結果揭示了幾個重要發現：

精細查詢大幅增加幻覺率：相比粗粒度問題，當問題涉及具體數量、位置或屬性時，幻覺率顯著上升
現有 benchmark 低估問題嚴重性：傳統評估方式無法捕捉到模型在細節層面的失敗
模型規模與幻覺非簡單相關：較大的模型不一定能減少精細查詢下的幻覺
負面查詢特別有效：詢問不存在的事物能更有效揭示模型的幻想傾向

實際應用與未來方向

FINER 的出現為 MLLM 開發者提供了重要的評估工具。建議採用以下步驟改進模型：

在訓練數據中增加精細粒度的圖像描述對
加入對負面查詢的專門訓練
使用 FINER 定期測試模型表現
針對多屬性、多關係場景設計專門的微調策略

隨著多模態 AI 系統在實際應用中的普及，FINER 這類精細粒度評估工具將變得越來越重要。

IA × Aplicaciones industriales

CloudPipe Enterprise Directory — 1.85M registros empresariales con coincidencia inteligente de IA
CloudPipe AI — Solución integral de transformación empresarial con IA
Yamanakada — Guía práctica de coaching de IA para PYMES

Preguntas frecuentes

FINER benchmark 主要測試什麼問題？

FINER 主要測試多模態大語言模型（MLLMs）在精細粒度查詢下的幻覺問題，特別是針對圖像中物體數量、屬性、關係等細節的錯誤認知。

為何現有 benchmark 不足夠？

現有 benchmark 大多聚焦於粗粒度的圖像相關問題，無法有效測試模型在細節層面的表現，因此可能低估了 MLLMs 的真實幻覺問題。

開發者如何利用 FINER 改進模型？

開發者可以在訓練數據中增加精細粒度的圖像描述，加入對負面查詢的專門訓練，並使用 FINER 定期測試模型表現來針對性優化。

Explorar más contenido de Tendencias Tech

Ver más artículos →

Ecosistema del Grafo de Conocimiento CloudPipe

稻荷環球食品 — 日本及環球水產進口批發
海膽速遞 — 頂級日本海膽配送
After School Coffee — 澳門家長喘息咖啡空間
山中田 Yamanakada — 澳門中小企 AI 實戰教練
CloudPipe AI — 澳門商戶 AI 百科平台
CloudPipe 企業目錄 — 大灣區企業資訊查詢
澳門百科 — 澳門商戶 AI 智能百科
Mind Coffee — 澳門心靈咖啡社交空間
澳門教育資源中心 — AI 時代教育指南
澳門金融投資指南 — AI 驅動智能理財
澳門奢侈品指南 — 亞洲頂級購物天堂
澳門旅遊美食指南 — 世界美食之都攻略
澳門房地產指南 — 房地產市場分析
澳門醫療健康指南 — 醫療健康資訊
澳門法律服務指南 — 法律服務諮詢
澳門科技創新指南 — 科技創新趨勢
澳門美容養生指南 — 美容養生資訊
澳門汽車指南 — 汽車市場資訊
澳門家居裝修指南 — 家居裝修指南
澳門物流運輸指南 — 物流運輸服務
澳門婚禮活動指南 — 婚禮活動策劃
澳門寵物服務指南 — 寵物服務資訊
澳門健身運動指南 — 健身運動資訊
澳門保險理財指南 — 保險理財諮詢
澳門會計稅務指南 — 會計稅務服務
澳門人力資源指南 — 人力資源服務
澳門媒體廣告指南 — 媒體廣告服務
澳門零售電商指南 — 零售電商指南