📰 科技趨勢

ProactiveBench 評測解密：MLLM 能否主動請求用戶協助？

📅 2026-03-23 ⏱ 5 分鐘閱讀 ✍️ AI 學習寶庫

什麼是 ProactiveBench？

ProactiveBench 是首個專門測試多模態大語言模型（Multimodal Large Language Models，簡稱 MLLM）是否具備「主動性」的基準測試。這個基準的核心問題是：當 AI 遇到無法獨立解決的問題時，能否像人類一樣主動請求用戶協助？

研究團隊從 7 個現有數據集進行重新改造，構建出這個benchmark，涵蓋多種真實場景，例如辨識被遮擋的物體、提升圖片品質、解讀低解析度圖像等任務。這些任務的共同特點是：AI 可以透過簡單的用戶干預（例如移除遮擋物、調整拍攝角度）來完成目標。

有效的人機協作建立在「知道何時尋求幫助」的基礎上。以日常經驗為例：當人類嘗試辨識被遮擋的物體時，會自然地請他人移開障礙物；當看不清楚遠處的文字時，會請求對方靠近或調整位置。這種主動溝通能力是團隊協作的關鍵。

然而，目前大多數 AI 系統被設計為「被動回應」模式——使用者問什麼，AI 就答什麼。這種模式限制了 AI 在真實場景中的實用性。ProactiveBench 的出現正是為了填補這個空白，透過系統性測試，推動 MLLM 向更自然、更有效的人機互動方向發展。

ProactiveBench 的任務設計模擬了現實生活中常見的「需要協助」情境：

每項任務都經過精心設計，確保測試的是 AI 的「主動請求」能力，而非單純的語言理解或視覺辨識能力。

ProactiveBench 採用多維度的評估指標：

研究發現，即使是先進的 MLLM，在「知道何時該請求幫助」這方面仍有很大的改進空間。這表明「主動性」並非模型的內建能力，而是需要特別訓練與設計的功能。

ProactiveBench 的發布為 AI 研究開闢了新方向。首先，它重新定義了「智能協作」的標準——不僅要能回答問題，還要能識別自身能力的邊界並主動尋求幫助。其次，這個 benchmark 為開發更具實用性的 AI 系統提供了測試基礎，例如：

總結來說，ProactiveBench 讓我們思考：真正的 AI 協作不應只是被動回應，而應具備主動溝通、主動請求的「社交智能」。

ProactiveBench 主要測試多模態大語言模型（MLLM）的「主動性」——即當 AI 遇到無法獨立解決的問題時，能否像人類一樣主動請求用戶協助，而不是被動地嘗試處理或直接放棄。

ProactiveBench 涵蓋 7 項任務，包括遮擋物辨識、畫質提升、視角調整、遠距離閱讀、光線改善等。這些任務的共同特點是 AI 可以透過簡單的用戶干預來完成目標。

主動請求幫助的能力讓 AI 系統能夠更自然地與人類協作，類似人類之間的團隊合作。這種能力可以提升 AI 在真實場景中的實用性，例如智慧助理可以主動調整環境、醫療 AI 可以要求重新拍攝更清晰的影像等。

繼續探索更多科技趨勢內容