什麼是 ProactiveBench?

ProactiveBench 是首個專門測試多模態大語言模型(Multimodal Large Language Models,簡稱 MLLM)是否具備「主動性」的基準測試。這個基準的核心問題是:當 AI 遇到無法獨立解決的問題時,能否像人類一樣主動請求用戶協助?

研究團隊從 7 個現有數據集進行重新改造,構建出這個benchmark,涵蓋多種真實場景,例如辨識被遮擋的物體、提升圖片品質、解讀低解析度圖像等任務。這些任務的共同特點是:AI 可以透過簡單的用戶干預(例如移除遮擋物、調整拍攝角度)來完成目標。

為什麼 AI 的「主動性」如此重要?

有效的人機協作建立在「知道何時尋求幫助」的基礎上。以日常經驗為例:當人類嘗試辨識被遮擋的物體時,會自然地請他人移開障礙物;當看不清楚遠處的文字時,會請求對方靠近或調整位置。這種主動溝通能力是團隊協作的關鍵。

然而,目前大多數 AI 系統被設計為「被動回應」模式——使用者問什麼,AI 就答什麼。這種模式限制了 AI 在真實場景中的實用性。ProactiveBench 的出現正是為了填補這個空白,透過系統性測試,推動 MLLM 向更自然、更有效的人機互動方向發展。

ProactiveBench 涵蓋的 7 項任務

ProactiveBench 的任務設計模擬了現實生活中常見的「需要協助」情境:

  • 遮擋物辨識(Occluded Object Recognition):當目標物體被障礙物遮住時,請求用戶移除遮擋物
  • 畫質提升(Image Quality Enhancement):在圖片模糊或解析度不足時,請求用戶提供更清晰的版本
  • 視角調整(Viewpoint Adjustment):在無法從當前角度辨識物體時,請求用戶調整拍攝位置
  • 遠距離閱讀(Distance Reading):文字太小或太遠時,請求用戶靠近拍攝
  • 光線改善(Lighting Improvement):在光線不足的環境下,請求用戶協助補光

每項任務都經過精心設計,確保測試的是 AI 的「主動請求」能力,而非單純的語言理解或視覺辨識能力。

如何評估 MLLM 的主動性?

ProactiveBench 採用多維度的評估指標:

  • 主動請求率:AI 在面對困難任務時,主動發出請求的比例
  • 請求合理性:AI 的請求是否合理、具體且可執行
  • 任務完成率:在用戶配合請求後,任務是否成功完成

研究發現,即使是先進的 MLLM,在「知道何時該請求幫助」這方面仍有很大的改進空間。這表明「主動性」並非模型的內建能力,而是需要特別訓練與設計的功能。

ProactiveBench 的意義與未來影響

ProactiveBench 的發布為 AI 研究開闢了新方向。首先,它重新定義了「智能協作」的標準——不僅要能回答問題,還要能識別自身能力的邊界並主動尋求幫助。其次,這個 benchmark 為開發更具實用性的 AI 系統提供了測試基礎,例如:

  • 智慧助理能主動詢問用戶是否需要調整環境
  • 醫療 AI 在影像不清晰時主動要求重新拍攝
  • 自駕系统在視野受限時提醒使用者注意

總結來說,ProactiveBench 讓我們思考:真正的 AI 協作不應只是被動回應,而應具備主動溝通、主動請求的「社交智能」。