📚 Tutorials

MLLM 離散符號理解瓶頸：認知差距完整解析

📅 2026-03-20 ⏱ 8 min read ✍️ AI Learning Hub

This article is written in Chinese. Use your browser's translation feature for other languages.

什麼是離散符號？為何 ML 模型難以理解？

多模態大型語言模型（Multimodal Large Language Models，簡稱 MLLM）在辨識風景、人物等自然場景方面表現優異，但當面對離散符號時，卻常常出現「認知錯配」（Cognitive Mismatch）的問題。

離散符號指的是具有明確語義的人工建構符號，包含：

這些符號與自然影像的連續視覺資料不同，需要精確的語義解讀與結構推理，這正是目前 MLLM 面臨的核心挑戰。

同一個符號在不同語境下代表不同意義。例如「+」在數學中是加法，但在化學中可能代表化學鍵。MLLM 需要根據上下文進行精確判斷，但目前的模型往往缺乏這種動態推理能力。

離散符號的意義往往來自於符號之間的空間關係。例如化學結構式中原子排列方式決定了分子性質，數學公式中上下標位置改變了運算意義。這種細粒度的結構理解對模型而言極具挑戰。

自然影像識別允許一定程度的模糊性，但離散符號理解要求絕對精確。一個化學結構的錯誤解讀可能導致完全不同的分子特性，必須做到「零誤差」。

研究團隊設計了一套完整的基準測試（benchmark），用於評估頂級 MLLM 在離散符號理解方面的表現。測試涵蓋多種符號類型，並針對以下能力進行評估：

測試結果顯示，目前最先進的 MLLM 在處理連續視覺資料時的準確率可達 90% 以上，但面對離散符號時，準確率下降至 60-70%，顯示出明顯的認知差距。

為模型提供大量標註精確的符號影像及其對應語義的訓練資料，幫助模型學習離散符號的特徵規律。

將數學、化學等領域的語法規則以結構化方式嵌入模型，使模型能夠理解符號間的語法關係。

採用「先識別、後推理」的串聯架構，先確保符號識別的準確性，再進行語義推理，降低錯誤傳播的風險。

針對不同類型的離散符號（數學、化學、音樂等）訓練專門的專家模型，再透過統一介面整合，提升各領域的處理精度。

解決 MLLM 的離散符號理解問題，將為多個領域帶來革命性影響：

雖然目前的 MLLM 在離散符號理解方面仍有顯著不足，但隨著研究的深入與技術的演进，未來有望實現更精確的符號處理能力。

離散符號是人工建構的具有明確語義的符號系統（如數學公式、化學結構），需要精確解讀；而連續視覺資料（如照片、風景）是連續的像素訊息，允許一定程度的模糊識別。離散符號的意義往往取決於符號間的結構關係，這是MLLM較難掌握的特點。

根據最新基準測試，頂級MLLM在自然場景識別的準確率可達90%以上，但在處理離散符號時，準確率下降至60-70%，顯示出明顯的認知差距，特別是在結構推理和語境判斷方面仍有很大改進空間。

主要策略包括：(1)建立專用的符號訓練資料集；(2)嵌入領域語法規則；(3)採用多階段推理架構降低錯誤傳播；(4)使用混合專家模型針對不同符號類型進行專業化處理。這些方法都能有效提升模型的符號理解精度。

Explore more Tutorials content