📰 Tech Trends

語言模型是 Token 級還是序列級？深度解析語言建模本質

📅 2026-03-19 ⏱ 8 min read ✍️ AI Learning Hub

This article is written in Chinese. Use your browser's translation feature for other languages.

語言模型的核心本質：Token 級預測

語言模型在本質上是一種Token 級的統計模型，其核心任務是預測下一個最可能出現的 token。這看似簡單的機制，卻能夠產生複雜的語言理解與生成能力。

以 GPT 系列為例，模型接收一段文字作為輸入，輸出下一個 token 的機率分布。這個過程是逐個進行的：

透過不斷重複這個過程，模型就能生成完整的句子或文章。

這是一個關鍵問題：僅僅預測下一個 token，如何理解整個序列的語義？

答案在於注意力機制（Attention Mechanism）。Transformer 架構允許模型在預測每個 token 時，訪問輸入序列中的所有其他 token。透過自注意力機制，模型能夠：

因此，雖然預測單位是 token，但模型實際上是在進行序列級的上下文建模。

讓我們用實際例子說明：

輸入序列：「小明把蘋果放在了桌子上，因為他餓了」

模型需要理解「他」指的是「小明」而非「桌子」。這個任務看似簡單，但需要：

這些都是序列級的理解任務，但透過每一步的 token 級預測逐步完成。

大型語言模型的訓練採用「下一個 token 預測」（Next Token Prediction, NTP）作為目標函數：

Loss = -Σ log P(w_t | w_1, w_2, ..., w_{t-1})

這個目標函數的設計具有以下優勢：

研究顯示，當模型規模夠大、訓練數據夠多時，NTP 能夠湧現出推理、程式碼撰寫等複雜能力。

雖然傳統語言模型是 token 級的，但近年來出現了多種序列級方法：

現代的先進模型往往結合多種方法。例如，GPT 專注於自迴歸 token 預測，而 BERT 则採用雙向序列編碼。理解這兩種範式的差異，有助於選擇適合的模型架構。

語言模型最核心的訓練目標是「下一個 token 預測」（Next Token Prediction）。模型學習在給定前面所有 token 的條件下，預測下一個最可能出現的 token。這個看似簡單的目標，透過大規模訓練和足夠的模型參數，能夠湧現出複雜的語言理解和生成能力。

Token 級預測是指模型逐個預測下一個 token，是語言模型的基本運作單位；序列級理解則是指模型對整個句子或段落語義的整體把握。雖然模型輸出是 token 級的，但透過自注意力機制，模型在每一步預測時都能夠存取完整序列資訊，因此能夠實現序列級的理解。

GPT 系列採用自迴歸架構主要有三個原因：第一，訓練目標簡單明確（下一個 token 預測）；第二，生成過程可控且稳定；第三，可以處理任意長度的輸入。雖然這種架構無法雙向理解上下文，但透過大規模預訓練，模型能夠學習豐富的語言表示。

Explore more Tech Trends content