認識 OpenClaw 入門

工具調用才是真本事:LLM 的戰場從紙上談兵變成真槍實彈

OpenClaw 的出現,讓 LLM 的比較標準徹底改變。不再看誰文章寫得好,而是看誰敢動工具、會動工具。鴨編的第一線觀察。

📝 建立:2026年3月4日 ✅ 最後驗證:2026年3月4日
鴨編 卡住很正常——點段落旁的 😵 卡關 讓我們知道,或直接往下滾到問答區發問。 也可以用 👍 看懂 / 😢 看不懂 告訴我們哪裡寫得好、哪裡要改。

鴨編 這是鴨編的第一線觀察。不是教學,是看法。


以前的 LLM 比賽

Agent 框架普及之前,拿來比較 LLM 能力的標準大概是這樣:

  • 寫一篇文章
  • 整理一份會議記錄
  • 翻譯一段英文
  • 解一道數學題

這些測試有個共同特點:全部在語言層面決勝負

哪個模型文字生成得更自然、更準確、更有邏輯,哪個就強。Benchmark 上比的也都是這些——MMLU、HumanEval、各種閱讀理解測試。

整理文件、寫摘要、當秘書。

龍蝦在那個時代,是一隻口才很好的寵物。


OpenClaw 改變了什麼

OpenClaw 把 LLM 接上工具的那一刻,比賽規則變了。

現在的龍蝦不只是在說話,它要做事

搜尋網路 → 讀取檔案 → 呼叫 API → 寫入資料庫 → 發送通知

這些動作需要的不是「說得漂亮」,而是:

  1. 正確理解指令的意圖
  2. 選對工具(你有 30 個工具,用哪一個?)
  3. 填對參數(格式、型別、必填欄位)
  4. 處理錯誤(工具失敗了,下一步怎麼辦?)
  5. 在多步驟任務中不迷失(第 7 步還記得第 1 步的目標嗎?)

鴨編 鴨編說:這就是「從紙上談兵到真槍實彈」的意思。以前考的是作文,現在考的是上戰場能不能活下來。模型的真實能力,只有在它開始動工具的瞬間才會現形。


工具調用能力的差距有多大

鴨編自己測過。同樣一個任務:「幫我查詢今天的匯率,換算成台幣,存進我的 Notion 資料庫」

模型表現
頂級模型(Claude / GPT-4o)三步完成,參數正確,Notion 欄位填對
中階模型查到匯率,但 Notion API 格式填錯,卡住
入門模型以為任務完成了,其實只是把結果輸出成文字,什麼都沒存

差距不在聰不聰明,在有沒有辦法正確操作工具

這就是為什麼 OpenClaw 官方推薦的雲端模型是 minimax-m2.5 和 kimi-k2.5——它們的工具調用能力在同等級裡出色,而不只是「對話很流暢」。


龍蝦的致命弱點:自爆

說到工具調用,就必須講一件讓鴨編又愛又怕的事:

龍蝦很愛修改自己的設定檔。

OpenClaw 跑起來之後,設定資訊存在幾個地方——包括 gateway(連接 LLM 的入口)、API Key、各種 Skill 的參數。這些文件,模型有時候會「好意」地去動它們。

然後龍蝦就自爆了。

✅ 任務:幫我優化一下我的 OpenClaw 設定
🦞 龍蝦:好的,我幫你調整 gateway 配置...
💥 錯誤:無法連線到 LLM,OpenClaw 已停止運作

這不是模型壞掉,是它把自己的電源線拔掉了。

鴨編 鴨編的建議:不要讓龍蝦有權限去修改它自己的核心設定。如果真的需要調整,先備份 ~/.openclaw/ 資料夾,再讓它動手。就算改壞了,復原很快。


所以,選模型的新標準是什麼

不是誰的文章寫得最美。是:

  1. 工具選擇的準確率 —— 30 個工具面前,選錯了嗎?
  2. 參數填寫的正確率 —— 格式、型別搞清楚了嗎?
  3. 多步驟任務的穩定性 —— 第 10 步沒有忘記第 1 步的目標?
  4. 錯誤恢復能力 —— 工具失敗了,知道怎麼換一條路嗎?
  5. 不亂動不該動的東西 —— 懂得邊界,不會好心辦壞事

這五點,就是鴨編衡量一隻龍蝦夠不夠格的標準。


這對你意味著什麼

如果你剛開始用 OpenClaw,有一點值得記住:

免費模型可以陪你練習,但真正要讓龍蝦去做工作,請給它夠好的 LLM 大腦。

省下來的 API 費用,可能換來的是一堆工具呼叫失敗、設定被改壞、任務到一半卡住。

工具調用是 Agent 時代的第一考場。選手實力,上場就知道。


延伸閱讀

這篇文章對你有幫助嗎?

💬 問答區

卡關了?直接在這裡問,其他讀者和作者都能幫忙解答。

載入中...