VAREX 是什麼?
VAREX(VARied-schema EXtraction)是一個專門用於評估多模態基礎模型在政府表單結構化資料擷取能力的基準測試。這個benchmark 包含 1,777 份文件,涵蓋 1,771 種獨特結構綱要,分為三種結構類別,並提供四種輸入模態供測試使用。
VAREX 的核心技術:Reverse Annotation 逆向註釋
VAREX 採用創新的「Reverse Annotation」逆向註釋管道,這個方法的核心概念是程式化地填入 PDF 模板,而非傳統的人工標註。具體步驟如下:
- 第一步:收集真實政府表單模板
- <第二步:建立結構化資料庫,包含各類表單欄位定義
- 第三步:開發自動化填充程式,根據模板產生帶有模擬數值的 PDF
- 第四步:對產出的文件進行三階段品質保證驗證
這種方法的優勢在於產生的地面真實數據是完全確定性的,確保了標註結果的一致性與可重複性。
三階段品質保證機制
VAREX 採用嚴謹的三階段品質保證流程來驗證數據品質:
- 結構驗證:確認 PDF 渲染結果與預期結構完全一致
- 數值驗證:檢查填充的數值是否在合理範圍內
- 語義驗證:確保提取的資料與原始schema語義匹配
這個品質保證機制確保了 VAREX 基準測試的高可靠性,使其成為評估多模態模型的理想工具。
四種輸入模態的應用場景
VAREX 的一大特色是提供四種不同的輸入模態,這使得研究人員能夠全面評估模型在不同形式下的表現:
- Plain Text:純文字版本,測試模型的基本理解能力
- PDF Document:完整 PDF 文件,考驗文件的整體處理能力
- Scanned Image:掃描影像,評估光學字元識別(OCR)能力
- Combined View:多視圖融合,測試跨模態理解與推理能力
VAREX 對 AI 領域的意義
VAREX 的出現填補了多模態文件結構化擷取領域缺乏標準化基準測試的空白。透過提供:
- 大規模且多樣化的測試數據集
- 精確的地面真實標註
- 標準化的評估指標
VAREX 讓研究人員能夠公平比較不同多模態基礎模型(如 GPT-4V、Claude、Gemini 等)在文件理解任務上的表現,推動該領域的快速發展。