研究背景:為什麼要比較人類與LLM的單字聯想?

大型語言模型(LLM)在文字生成方面展現令人驚艷的流暢度,但這些模型內部的詞彙結構究竟與人類詞彙有多相似?這個問題關乎我們對AI語言理解的根本理解。本研究透過比較人類與LLM生成的單字聯想,試圖回答這個關鍵問題。

人類的詞彙記憶並非靜態的詞典,而是一個動態的聯想網路。當我們看到「夏天」這個詞時,可能會聯想到「海灘」、「西瓜」、「炎熱」等詞彙,這些聯想反映了語言使用者的文化背景、經驗和語言習慣。如果LLM能夠生成與人類相似的聯想結果,代表它們可能學習到了人類詞彙的深層結構。

研究團隊採用SWOW(Small World of Words)數據集作為比較的基準,這是目前最大的英語單字聯想資料庫之一,包含了大量人類自發生成的詞彙關聯資料。

研究方法:SWOW數據集與實驗設計

研究團隊使用SWOW數據集中的人類單字聯想對(cue-response pairs)作為標準答案,並設計實驗讓三種不同的LLM生成對應的聯想結果。實驗的核心是控制溫度(temperature)參數,這個參數決定了模型輸出的隨機性程度。

具體實驗步驟如下:

  • 步驟一:從SWOW數據集中選取英語 cue-response 配對作為測試樣本
  • 步驟二:設定不同的溫度參數(0.3、0.7、1.0等)讓LLM生成聯想詞
  • 步驟三:比較人類與LLM生成的聯想結果,計算重疊程度
  • 步驟四:分析語言多樣性(diversity)和典型性(typicality)兩個維度

研究特別關注溫度參數的影響,因為這個參數直接控制模型在生成時的「創意程度」——較低的溫度產生更可預測的結果,較高的溫度則產生更多樣化的輸出。

溫度參數如何影響LLM的詞彙多樣性?

研究結果顯示,溫度參數對LLM生成的詞彙多樣性有顯著影響。當溫度設為較低值(如0.3)時,模型傾向於生成最常見、最安全的聯想詞,這些詞與人類最常見的聯想高度重疊,但缺乏多樣性。

舉例來說,當輸入cue詞「dog」時:

  • 低溫度(0.3):可能只生成「cat」、「pet」等常見詞
  • 高溫度(1.0):可能生成更多元的聯想,如「loyal」、「park」、「bark」

然而,即使提高溫度,LLM生成的聯想詞類型仍然與人類有本質差異。人類的聯想涵蓋了情感、經驗、文化等多元面向,而LLM的聯想則更偏向語義層面的直接關聯。這表明單純調整溫度參數並不足以讓模型完全模擬人類的詞彙組織方式。

典型性分析:模型與人類詞彙的差距

研究的另一個重要發現是關於「典型性」的差異。人類在進行單字聯想時,會受到典型性效應(typicality effect)的影響——我們更容易想到類別中典型的成員。例如,給定「水果」這個 cue 時,人類更可能想到「蘋果」而非「奇異果」,因為蘋果在認知上更典型。

實驗結果表明,LLM在捕捉這種典型性模式方面表現不如人類。研究人員使用經典性評分(ratings of classicality)來測量發現,LLM生成的聯想詞中,典型性較高的詞彙比例明顯低於人類。這意味著模型的內部表徵可能與人類的心理詞典(mental lexicon)存在結構性差異。

此外,研究還發現LLM在處理語言多樣性時存在限制。模型傾向於重複出現高頻關聯詞,較少產生人類聯想中常見的低頻但合理的創意連結。

研究結論與對AI發展的啟示

這項研究揭示了LLM與人類詞彙理解之間的重要差距。雖然模型能夠生成語法正確、流暢自然的文字,但它們的內部詞彙結構與人類的心理詞典存在顯著差異。

對AI開發者的啟示包括:

  • 重新審視評估指標:僅以流暢度評估語言模型是不夠的,需要加入詞彙結構相似性的評估
  • 溫度參數的最佳化:根據應用場景選擇適當的溫度值,平衡多樣性與準確性
  • 改進訓練數據:考慮加入更多人類認知相關的語料,提升模型的典型性理解

未來研究可以進一步探討如何讓LLM更好地模擬人類的詞彙組織方式,這對於發展更自然、更人性化的AI語言系統至關重要。