ItinBench 是什麼?首個多維度 LLM 規劃能力評估框架

ItinBench 是針對大型語言模型(LLM)規劃能力的創新基準測試,突破了傳統評估僅關注單一推理維度的限制。傳統測試往往在受控環境中評估特定推理或規劃問題,缺乏對現實世界複雜性的全面考量。ItinBench 以旅遊規劃為載體,整合空間推理、時間安排、財務預算、個人偏好及物流調度五大認知維度,為 LLM 規劃能力提供更全面的評估標準。

這個框架的核心價值在於:它不僅測試 LLM 的語言理解能力,更評估其在複雜、多約束情境下的綜合規劃表現。透過這個基準測試,研究人員可以更準確地識別當前 LLM 在規劃任務上的優勢與不足。

為何需要新的 LLM 規劃評估方法?

現有 LLM 評估方法存在明顯局限性。傳統基準測試通常專注於單一任務類型,例如數學推理、邏輯推斷或事實問答,無法反映 LLM 在真實世界中的綜合規劃能力。此外,這些測試往往在高度結構化的環境中進行,缺乏現實世界的複雜性和不確定性。

旅遊規劃作為測試媒介具有獨特優勢:它天然整合了多種認知維度,需要同時處理空間關係(景點位置)、時間序列(行程安排)、財務限制(預算分配)、個人偏好(興趣匹配)及物流協調(交通住宿)等複雜因素。這種全方位的認知挑戰更能真實反映 LLM 的實用價值。

ItinBench 的五大認知維度評估

ItinBench 的評估框架涵蓋以下五個核心認知維度:

  • 空間維度:評估 LLM 理解地理位置、計算距離、優化路線的能力。例如,從台北到高雄的火車規劃,需考慮直達或轉乘的效率。
  • 時間維度:測試 LLM 處理時程安排、景點開放時間、遊玩時长的能力。三天行程需合理分配每個景點的參觀時間。
  • 財務維度:評估 LLM 在預算限制下進行資源分配的能力。五天四夜預算 NT$30,000,需兼顧機票、住宿、餐飲和門票。
  • 偏好維度:測試 LLM 理解和匹配用戶個人偏好的能力。例如,針對不愛爬山的旅客,應優先安排室內景點。
  • 物流維度:評估 LLM 協調交通、住宿、預訂等實際執行細節的能力。

ItinBench 的實際應用場景

在實際測試中,ItinBench 會生成多樣化的旅遊規劃情境,讓 LLM 產生完整的行程建議。例如:一個家庭計劃寒假期間從台北出發,進行五天四夜的日本東京親子之旅,預算為新台幣 12 萬元,成员包括一對夫妻和一個 6 歲小孩。LLM 需要整合以下考量:

  • 景點選擇需適合兒童,如迪士尼樂園、科學未來館
  • 住宿地點需靠近地鐵站,方便移動
  • 每日行程時間不宜過長,需留有彈性
  • 餐飲需考慮小孩的飲食習慣

透過這種多約束情境的測試,ItinBench 能夠全面評估 LLM 在複雜規劃任務中的實際表現,而非僅僅測試其語言流暢度。

ItinBench 對 AI 發展的意義與啟示

ItinBench 的出現標誌著 LLM 評估從單一能力測試邁向綜合規劃能力評估的重要轉折。透過這個基準測試,研究人員可以:

  • 識別能力差距:了解當前 LLM 在哪些認知維度上表現較弱,進而指導模型優化方向
  • 推動應用落地:為需要複雜規劃能力的 AI 應用(如個人助理、行程規劃工具)提供更準確的能力評估標準
  • 促進模型進化:幫助開發團隊針對性地提升 LLM 的多維度推理能力

未來,ItinBench 的評估框架可擴展至其他領域,如企業營運規劃、專案管理或供應鏈優化等,進一步推動 AI 在實際應用場景中的發展。