💡 Prompts

VAREX 基準測試：AI 文件結構化擷取的新標準

VAREX 採用 Reverse Annotation 逆向註釋技術，透過程式化填充 PDF 模板產生確定性的地面真實數據，而非傳統的人工標註。這確保了數據的一致性與可重複性，且涵蓋 1,771 種獨特結構綱要，規模遠超一般測試集。

VAREX 的三階段品質保證包括：(1) 結構驗證 - 確認 PDF 渲染與預期結構一致；(2) 數值驗證 - 檢查填充數值在合理範圍內；(3) 語義驗證 - 確保提取資料與原始 schema 語義匹配。這確保了基準測試數據的高可靠性。

研究人員可以下載 VAREX 提供的四種輸入模態（純文字、PDF、掃描影像、組合視圖），讓待測試的多模態模型進行結構化資料擷取，然後比對模型輸出與地面真實數據，計算準確率、召回率等指標，進行公平的性能比較。

📅 2026-03-18 ⏱ 6 min read ✍️ AI Learning Hub

This article is written in Chinese. Use your browser's translation feature for other languages.

VAREX 是什麼？

VAREX（VARied-schema EXtraction）是一個專門用於評估多模態基礎模型在政府表單結構化資料擷取能力的基準測試。這個benchmark 包含 1,777 份文件，涵蓋 1,771 種獨特結構綱要，分為三種結構類別，並提供四種輸入模態供測試使用。

VAREX 採用創新的「Reverse Annotation」逆向註釋管道，這個方法的核心概念是程式化地填入 PDF 模板，而非傳統的人工標註。具體步驟如下：

這種方法的優勢在於產生的地面真實數據是完全確定性的，確保了標註結果的一致性與可重複性。

VAREX 採用嚴謹的三階段品質保證流程來驗證數據品質：

這個品質保證機制確保了 VAREX 基準測試的高可靠性，使其成為評估多模態模型的理想工具。

VAREX 的一大特色是提供四種不同的輸入模態，這使得研究人員能夠全面評估模型在不同形式下的表現：

VAREX 的出現填補了多模態文件結構化擷取領域缺乏標準化基準測試的空白。透過提供：

VAREX 讓研究人員能夠公平比較不同多模態基礎模型（如 GPT-4V、Claude、Gemini 等）在文件理解任務上的表現，推動該領域的快速發展。

VAREX 採用 Reverse Annotation 逆向註釋技術，透過程式化填充 PDF 模板產生確定性的地面真實數據，而非傳統的人工標註。這確保了數據的一致性與可重複性，且涵蓋 1,771 種獨特結構綱要，規模遠超一般測試集。

VAREX 的三階段品質保證包括：(1) 結構驗證 - 確認 PDF 渲染與預期結構一致；(2) 數值驗證 - 檢查填充數值在合理範圍內；(3) 語義驗證 - 確保提取資料與原始 schema 語義匹配。這確保了基準測試數據的高可靠性。

研究人員可以下載 VAREX 提供的四種輸入模態（純文字、PDF、掃描影像、組合視圖），讓待測試的多模態模型進行結構化資料擷取，然後比對模型輸出與地面真實數據，計算準確率、召回率等指標，進行公平的性能比較。

Explore more Prompts content