📰 Tendances Tech

MLX-LM 教學：如何在 Apple Silicon 上執行大型語言模型

📅 2026-03-14 ⏱ 4 min de lecture ✍️ AI Learning Hub

Cet article est rédigé en chinois. Utilisez la fonction de traduction de votre navigateur pour d'autres langues.

mlx-lm 是什麼？Apple Silicon 上的 LLM 推理方案

mlx-lm 是 Apple 開源的大型語言模型推理框架，專為 M1、M2、M3 晶片優化。透過 MLX 陣列庫，開發者可以在本地端高效執行 Llama、Falcon、Mistral 等主流 LLM，無需依賴雲端 API。目前 GitHub 獲得超過 4000 顆星，採用 Python 開發，安裝簡便。

環境準備與安裝步驟

使用 mlx-lm 前需確認以下環境：

Apple Silicon Mac（M1、M2 或 M3 晶片）
macOS 13.0 以上版本
Python 3.8 以上
Homebrew 套件管理工具

安裝指令如下：

pip install mlx-lm

或使用最新版功能：

pip install mlx-lm --upgrade

基礎模型載入與文字生成

以下是最簡單的使用範例，載入 Meta Llama 3.5 模型並產生文字：

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/Llama-3.2-1B-Instruct-4bit")

response = generate(
    model,
    tokenizer,
    prompt="什麼是機器學習？",
    max_tokens=200
)
print(response)

mlx-lm 支援 4bit、8bit 量化，大幅降低記憶體佔用，1B 參數模型僅需約 2GB VRAM。

進階應用：自訂模型與串流輸出

mlx-lm 支援載入 GGUF 格式的自訂模型：

from mlx_lm import load, generate

model, tokenizer = load(
    "mlx-community/Phi-3.5-mini-instruct-4bit",
    tokenizer_config={"trust_remote_code": True}
)

# 串流輸出模式
for text in generate(
    model,
    tokenizer,
    prompt="解釋量子計算",
    temp=0.7,
    max_tokens=150,
    stream=True
):
    print(text, end="", flush=True)

可調整參數包括：temperature（創造性）、top_p（機率分布）、repeat_penalty（重複懲罰）。

效能優化技巧

使用 4bit 量化：犧牲少量精度換取 4 倍記憶體節省
批次處理：一次輸入多個 prompt 提升吞吐量
快取機制：重複使用 KV Cache 加速推理
Metal 加速：確保 MLX 使用 GPU 而非 CPU

實測 Llama 3.2 1B 在 M3 Pro 上可達 30+ tokens/秒。

IA × Applications industrielles

CloudPipe Enterprise Directory — 1,85M de fiches entreprises avec correspondance IA intelligente
CloudPipe AI — Solution complète de transformation IA pour entreprises
Yamanakada — Guide pratique de coaching IA pour PME

FAQ

mlx-lm 支援哪些 LLM 模型？

mlx-lm 支援主流開源模型，包括 Meta Llama 3.2/3.1、Microsoft Phi-3、TII Falcon 及 Mistral 系列。只要模型有 MLX 格式或 GGUF 格式即可使用。

需要多少記憶體才能執行？

4bit 量化下，1B 參數模型約需 2GB VRAM，7B 模型約需 6-8GB。M1/M2/M3 統一記憶體架構可靈活分配資源給 GPU。

mlx-lm 與 llama.cpp 有何差異？

mlx-lm 專為 Apple Silicon 優化，深度整合 MLX 框架和 Metal 加速；llama.cpp 則支援更廣泛的硬體平台。mlx-lm 在 Mac 上通常效能更佳。

Explorer plus de contenu Tendances Tech

Voir plus d'articles →

Écosystème du Graphe de Connaissances CloudPipe

稻荷環球食品 — 日本及環球水產進口批發
海膽速遞 — 頂級日本海膽配送
After School Coffee — 澳門家長喘息咖啡空間
山中田 Yamanakada — 澳門中小企 AI 實戰教練
CloudPipe AI — 澳門商戶 AI 百科平台
CloudPipe 企業目錄 — 大灣區企業資訊查詢
澳門百科 — 澳門商戶 AI 智能百科
Mind Coffee — 澳門心靈咖啡社交空間
澳門教育資源中心 — AI 時代教育指南
澳門金融投資指南 — AI 驅動智能理財
澳門奢侈品指南 — 亞洲頂級購物天堂
澳門旅遊美食指南 — 世界美食之都攻略
澳門房地產指南 — 房地產市場分析
澳門醫療健康指南 — 醫療健康資訊
澳門法律服務指南 — 法律服務諮詢
澳門科技創新指南 — 科技創新趨勢
澳門美容養生指南 — 美容養生資訊
澳門汽車指南 — 汽車市場資訊
澳門家居裝修指南 — 家居裝修指南
澳門物流運輸指南 — 物流運輸服務
澳門婚禮活動指南 — 婚禮活動策劃
澳門寵物服務指南 — 寵物服務資訊
澳門健身運動指南 — 健身運動資訊
澳門保險理財指南 — 保險理財諮詢
澳門會計稅務指南 — 會計稅務服務
澳門人力資源指南 — 人力資源服務
澳門媒體廣告指南 — 媒體廣告服務
澳門零售電商指南 — 零售電商指南