什麼是 GeoChallenge?

GeoChallenge 是專為評測大型語言模型(LLM)幾何推理能力而設計的基準測試。根據 arXiv 發表的論文(編號:2603.19252v1),這個資料集包含 9 萬道自動生成的多重選擇幾何證明問題,每道題目都需要結合文字描述與圖形進行多步驟推理。這是目前規模最大、最具挑戰性的幾何推理評測基準。

與傳統的幾何題目不同,GeoChallenge 要求模型不僅要理解文字條件,還要解讀圖形中的空間關係,並且能夠推導出正確的幾何證明。這種結合視覺與符號推理的任務,對目前的 LLM 來說是極大的挑戰。

為什麼需要幾何推理評測基準?

評估 LLM 的符號推理能力一直是 AI 領域的重要課題。幾何問題恰好能夠測試模型的多種能力:邏輯推論、空間認知、步驟化的證明建構,以及同時處理文字與圖像資訊的能力。

然而,現有的幾何評測基準存在幾個明顯限制:

  • 規模不足: 早期基準通常只包含數百或數千道題目,難以全面評估模型能力
  • 缺乏視覺 grounding: 很少提供真正結合圖形的多重選擇題目
  • 複雜度有限: 題目難度不足,無法考驗複雜的多步驟推理

GeoChallenge 的出現正是為了解決這些問題,提供一個規模夠大、難度夠高且具視覺 grounding 的評測環境。

GeoChallenge 的核心特色

GeoChallenge 具有以下幾個關鍵特色:

90K 大規模題庫

資料集包含 9 萬道自動生成的幾何證明題,規模遠超現有基準。這些題目涵蓋多種幾何概念,包括三角形、圓形、平行線等常見幾何元素。

多重視覺 grounding

每道題目都包含文字描述與圖形,模型需要同時處理這兩種資訊來源。例如,題目可能給定一個三角形 ABC,並標明某些角度或邊的關係,模型必須結合圖形推論出正確答案。

多重選擇格式

採用多重選擇題設計,讓評測更加客觀且易於量化。每道題目提供多個選項,模型需要從中選擇正確的結論或證明步驟。

多步驟證明要求

題目要求模型進行多步驟推理,而非簡單的單步計算。這更貼近實際的數學證明過程,對模型的邏輯推論能力要求更高。

實際應用與範例說明

舉一個典型範例:假設題目給定「在三角形 ABC 中,AB = AC,且 D 是 BC 的中點。證明 AD 垂直於 BC。」模型需要理解:

  • AB = AC 表示三角形 ABC 是等腰三角形
  • D 是 BC 中點
  • 利用等腰三角形的性質和中點定義
  • 推導出 AD 與 BC 的垂直關係

這個過程需要模型具備清晰的幾何知識儲備,以及將文字條件轉化為幾何推理步驟的能力。GeoChallenge 正是透過大量此類題目來全面評測模型的幾何推理水平。

對 AI 研究的意義與未來展望

GeoChallenge 的發布為 LLM 幾何推理研究提供了重要的基準線。研究人員可以使用這個資料集來:

  • 比較不同模型的推理能力: 標準化的題庫讓模型之間的比較更加公平
  • 識別模型弱點: 分析模型在哪些類型的幾何推理上表現較差
  • 推動模型改進: 為模型訓練提供更具挑戰性的目標

隨著 LLM 技術持續進步,GeoChallenge 這類評測基準將幫助我們更精確地追蹤模型在複雜推理任務上的進展,推動 AI 向更強大的符號推理能力邁進。