工具調用才是真本事:LLM 的戰場從紙上談兵變成真槍實彈
OpenClaw 的出現,讓 LLM 的比較標準徹底改變。不再看誰文章寫得好,而是看誰敢動工具、會動工具。鴨編的第一線觀察。
這是鴨編的第一線觀察。不是教學,是看法。
以前的 LLM 比賽
在 Agent 框架普及之前,拿來比較 LLM 能力的標準大概是這樣:
- 寫一篇文章
- 整理一份會議記錄
- 翻譯一段英文
- 解一道數學題
這些測試有個共同特點:全部在語言層面決勝負。
哪個模型文字生成得更自然、更準確、更有邏輯,哪個就強。Benchmark 上比的也都是這些——MMLU、HumanEval、各種閱讀理解測試。
整理文件、寫摘要、當秘書。
龍蝦在那個時代,是一隻口才很好的寵物。
OpenClaw 改變了什麼
當 OpenClaw 把 LLM 接上工具的那一刻,比賽規則變了。
現在的龍蝦不只是在說話,它要做事。
搜尋網路 → 讀取檔案 → 呼叫 API → 寫入資料庫 → 發送通知
這些動作需要的不是「說得漂亮」,而是:
- 正確理解指令的意圖
- 選對工具(你有 30 個工具,用哪一個?)
- 填對參數(格式、型別、必填欄位)
- 處理錯誤(工具失敗了,下一步怎麼辦?)
- 在多步驟任務中不迷失(第 7 步還記得第 1 步的目標嗎?)
鴨編說:這就是「從紙上談兵到真槍實彈」的意思。以前考的是作文,現在考的是上戰場能不能活下來。模型的真實能力,只有在它開始動工具的瞬間才會現形。
工具調用能力的差距有多大
鴨編自己測過。同樣一個任務:「幫我查詢今天的匯率,換算成台幣,存進我的 Notion 資料庫」
| 模型 | 表現 |
|---|---|
| 頂級模型(Claude / GPT-4o) | 三步完成,參數正確,Notion 欄位填對 |
| 中階模型 | 查到匯率,但 Notion API 格式填錯,卡住 |
| 入門模型 | 以為任務完成了,其實只是把結果輸出成文字,什麼都沒存 |
差距不在聰不聰明,在有沒有辦法正確操作工具。
這就是為什麼 OpenClaw 官方推薦的雲端模型是 minimax-m2.5 和 kimi-k2.5——它們的工具調用能力在同等級裡出色,而不只是「對話很流暢」。
龍蝦的致命弱點:自爆
說到工具調用,就必須講一件讓鴨編又愛又怕的事:
龍蝦很愛修改自己的設定檔。
OpenClaw 跑起來之後,設定資訊存在幾個地方——包括 gateway(連接 LLM 的入口)、API Key、各種 Skill 的參數。這些文件,模型有時候會「好意」地去動它們。
然後龍蝦就自爆了。
✅ 任務:幫我優化一下我的 OpenClaw 設定
🦞 龍蝦:好的,我幫你調整 gateway 配置...
💥 錯誤:無法連線到 LLM,OpenClaw 已停止運作
這不是模型壞掉,是它把自己的電源線拔掉了。
鴨編的建議:不要讓龍蝦有權限去修改它自己的核心設定。如果真的需要調整,先備份
~/.openclaw/資料夾,再讓它動手。就算改壞了,復原很快。
所以,選模型的新標準是什麼
不是誰的文章寫得最美。是:
- 工具選擇的準確率 —— 30 個工具面前,選錯了嗎?
- 參數填寫的正確率 —— 格式、型別搞清楚了嗎?
- 多步驟任務的穩定性 —— 第 10 步沒有忘記第 1 步的目標?
- 錯誤恢復能力 —— 工具失敗了,知道怎麼換一條路嗎?
- 不亂動不該動的東西 —— 懂得邊界,不會好心辦壞事
這五點,就是鴨編衡量一隻龍蝦夠不夠格的標準。
這對你意味著什麼
如果你剛開始用 OpenClaw,有一點值得記住:
免費模型可以陪你練習,但真正要讓龍蝦去做工作,請給它夠好的 LLM 大腦。
省下來的 API 費用,可能換來的是一堆工具呼叫失敗、設定被改壞、任務到一半卡住。
工具調用是 Agent 時代的第一考場。選手實力,上場就知道。
延伸閱讀
這篇文章對你有幫助嗎?
💬 問答區
卡關了?直接在這裡問,其他讀者和作者都能幫忙解答。
載入中...