工具調用才是真本事：LLM 的戰場從紙上談兵變成真槍實彈

這是鴨編的第一線觀察。不是教學，是看法。

以前的 LLM 比賽

在 Agent 框架普及之前，拿來比較 LLM 能力的標準大概是這樣：

寫一篇文章
整理一份會議記錄
翻譯一段英文
解一道數學題

這些測試有個共同特點：全部在語言層面決勝負。

哪個模型文字生成得更自然、更準確、更有邏輯，哪個就強。Benchmark 上比的也都是這些——MMLU、HumanEval、各種閱讀理解測試。

整理文件、寫摘要、當秘書。

龍蝦在那個時代，是一隻口才很好的寵物。

OpenClaw 改變了什麼

當 OpenClaw 把 LLM 接上工具的那一刻，比賽規則變了。

現在的龍蝦不只是在說話，它要做事。

搜尋網路 → 讀取檔案 → 呼叫 API → 寫入資料庫 → 發送通知

這些動作需要的不是「說得漂亮」，而是：

正確理解指令的意圖
選對工具（你有 30 個工具，用哪一個？）
填對參數（格式、型別、必填欄位）
處理錯誤（工具失敗了，下一步怎麼辦？）
在多步驟任務中不迷失（第 7 步還記得第 1 步的目標嗎？）

鴨編說：這就是「從紙上談兵到真槍實彈」的意思。以前考的是作文，現在考的是上戰場能不能活下來。模型的真實能力，只有在它開始動工具的瞬間才會現形。

工具調用能力的差距有多大

鴨編自己測過。同樣一個任務：「幫我查詢今天的匯率，換算成台幣，存進我的 Notion 資料庫」

模型	表現
頂級模型（Claude / GPT-4o）	三步完成，參數正確，Notion 欄位填對
中階模型	查到匯率，但 Notion API 格式填錯，卡住
入門模型	以為任務完成了，其實只是把結果輸出成文字，什麼都沒存

差距不在聰不聰明，在有沒有辦法正確操作工具。

這就是為什麼 OpenClaw 官方推薦的雲端模型是 minimax-m2.5 和 kimi-k2.5——它們的工具調用能力在同等級裡出色，而不只是「對話很流暢」。

龍蝦的致命弱點：自爆

說到工具調用，就必須講一件讓鴨編又愛又怕的事：

龍蝦很愛修改自己的設定檔。

OpenClaw 跑起來之後，設定資訊存在幾個地方——包括 gateway（連接 LLM 的入口）、API Key、各種 Skill 的參數。這些文件，模型有時候會「好意」地去動它們。

然後龍蝦就自爆了。

✅ 任務：幫我優化一下我的 OpenClaw 設定
🦞 龍蝦：好的，我幫你調整 gateway 配置...
💥 錯誤：無法連線到 LLM，OpenClaw 已停止運作

這不是模型壞掉，是它把自己的電源線拔掉了。

鴨編的建議：不要讓龍蝦有權限去修改它自己的核心設定。如果真的需要調整，先備份 ~/.openclaw/ 資料夾，再讓它動手。就算改壞了，復原很快。

所以，選模型的新標準是什麼

不是誰的文章寫得最美。是：

工具選擇的準確率 —— 30 個工具面前，選錯了嗎？
參數填寫的正確率 —— 格式、型別搞清楚了嗎？
多步驟任務的穩定性 —— 第 10 步沒有忘記第 1 步的目標？
錯誤恢復能力 —— 工具失敗了，知道怎麼換一條路嗎？
不亂動不該動的東西 —— 懂得邊界，不會好心辦壞事

這五點，就是鴨編衡量一隻龍蝦夠不夠格的標準。

這對你意味著什麼

如果你剛開始用 OpenClaw，有一點值得記住：

免費模型可以陪你練習，但真正要讓龍蝦去做工作，請給它夠好的 LLM 大腦。

省下來的 API 費用，可能換來的是一堆工具呼叫失敗、設定被改壞、任務到一半卡住。

工具調用是 Agent 時代的第一考場。選手實力，上場就知道。

以前的 LLM 比賽

OpenClaw 改變了什麼

工具調用能力的差距有多大

龍蝦的致命弱點：自爆

所以，選模型的新標準是什麼

這對你意味著什麼

延伸閱讀

這篇文章對你有幫助嗎？

💬 問答區

以前的 LLM 比賽

OpenClaw 改變了什麼

工具調用能力的差距有多大

龍蝦的致命弱點：自爆

所以，選模型的新標準是什麼

這對你意味著什麼

延伸閱讀

這篇文章對你有幫助嗎？

📖 延伸閱讀

為什麼你需要 OpenClaw？當 ChatGPT 和 Gemini 不夠用的時候

💬 問答區