知識與進階 中級

AI 推理技術解密:Chain-of-Thought、ReAct 與思維樹

AI 怎麼學會「想事情」?從 Chain-of-Thought 到思維樹,了解讓 AI 推理能力提升 5 倍的技術,以及 OpenClaw 如何運用它們。

📝 建立:2026年2月27日 ✅ 最後驗證:2026年2月27日
鴨編 卡住很正常——點段落旁的 😵 卡關 讓我們知道,或直接往下滾到問答區發問。 也可以用 👍 看懂 / 😢 看不懂 告訴我們哪裡寫得好、哪裡要改。

AI 也會「想錯」

你有沒有試過讓 AI 做數學題?

你:Roger 有 5 顆網球。他又買了 2 罐,每罐有 3 顆。
    他現在有幾顆網球?
AI:11 顆

答案是對的…但如果換個稍微複雜的問題:

你:一間教室有 23 個學生。有 5 個學生離開了,
    又來了 3 組新學生,每組 4 人。現在幾個學生?
AI:26 個

錯了。答案應該是 23 - 5 + (3×4) = 30 個。

AI 直接給答案時容易「跳過思考」,就像學生考試不寫計算過程,直覺寫答案的結果——常常出錯。

解決方法:逼 AI 寫出計算過程。


Chain-of-Thought:讓 AI 說出思考過程

核心概念

2022 年 Google 的研究團隊發現:如果在 Prompt 裡要求 AI 「一步步思考」,推理能力可以提升 3-5 倍。

這個技術叫做 Chain-of-Thought(CoT)——思維鏈。

對照實驗

❌ 普通問法:

一間教室有 23 個學生。5 個離開了,
又來了 3 組新學生,每組 4 人。現在幾個學生?

AI 回答:26 個(錯)

✅ CoT 問法:

一間教室有 23 個學生。5 個離開了,
又來了 3 組新學生,每組 4 人。現在幾個學生?
讓我們一步步計算。

AI 回答:

讓我一步步算:
1. 原本有 23 個學生
2. 5 個離開 → 23 - 5 = 18 個
3. 來了 3 組,每組 4 人 → 3 × 4 = 12 個
4. 18 + 12 = 30 個
答案是 30 個學生。

✅ 正確。

為什麼有效?

鴨編 比喻:你叫一個學生解數學題,他在腦子裡算了一下直接說「26」。你叫他寫下計算過程,他寫到第二步就發現自己算錯了。寫下來的過程本身就是一種自我修正機制。

技術上,CoT 有效是因為:

  • 分解複雜問題:一個大問題變成多個小問題,每步都是簡單問題
  • 中間步驟可檢查:錯了可以在某一步被抓到
  • 利用了模型的序列生成特性:生成的每個 Token 都會影響下一個 Token

CoT 的三種用法

1. Zero-shot CoT:最簡單的用法

不用給範例,只需要加一句話:

[你的問題]
讓我們一步步思考。

或英文版:Let's think step by step.

就這樣。加這一句,數學和邏輯題的正確率從 17.7% 跳到 78.7%——Google 的論文數據,不是我亂講的。

2. Few-shot CoT:給範例

給 AI 2-3 個帶有推理過程的範例,讓它學會格式:

問題:小明有 3 顆蘋果,小華給了他 5 顆,他又吃了 2 顆。還剩幾顆?
思考過程:
- 原本 3 顆
- 加上 5 顆 → 3 + 5 = 8 顆
- 吃掉 2 顆 → 8 - 2 = 6 顆
答案:6 顆

問題:[你的新問題]
思考過程:

效果比 Zero-shot 更穩定,特別適合你知道正確推理方式的場景。

3. Self-Consistency:投票制

同一個問題,讓 AI 用 CoT 回答 5 次,然後看哪個答案出現最多次——多數決

回答 1:300(推理路徑 A)
回答 2:360(推理路徑 B)
回答 3:360(推理路徑 C)
回答 4:360(推理路徑 D)
回答 5:300(推理路徑 E)

投票結果:360(3/5 投票)→ 採用 360

鴨編 比喻:不確定答案時,問 5 個人,選多數人的答案。不能保證對,但大概率比只問 1 個人好。


ReAct:讓 AI 邊想邊做

CoT 的限制

CoT 讓 AI 學會推理,但它只能在「腦子裡」想——碰到需要查資料或操作工具的任務就不行了。

「明天台北會不會下雨?」 AI 用 CoT 可以推理,但它沒有天氣資料,所以只能猜。

ReAct = Reasoning + Acting

2022 年的 ReAct 論文合併了推理行動

Thought(想法) → Action(行動) → Observation(觀察)→ Thought...

完整流程:

用戶:「明天台北會下雨嗎?幫我判斷要不要帶傘。」

[Thought] 用戶問台北天氣,我需要查天氣預報才能給準確建議
[Action]  呼叫 weather.get_forecast(city="台北", day="明天")
[Observation] API 回傳:降雨機率 80%、氣溫 18-22°C、東北風
[Thought] 降雨機率 80% 很高,應該建議帶傘。
          氣溫偏低,可以建議帶外套。
[Answer]  明天台北降雨機率 80%,建議帶傘!
          氣溫 18-22°C,東北風,也帶件薄外套比較保險。

這就是 OpenClaw Agent 的核心

OpenClaw 的 Agent 模式就是 ReAct 循環的實現:

  1. 感知(接收你的指令)
  2. 思考(分析需要什麼 Skill)
  3. 行動(呼叫 Skill / 工具)
  4. 觀察(接收工具回傳結果)
  5. 回到思考(判斷任務是否完成)
你:「幫我把今天的待辦事項整理好,發到 Telegram」

Agent 思考:需要兩個步驟——取待辦 + 發訊息
Agent 行動:呼叫 Todoist Skill → 取得今日待辦
Agent 觀察:收到 5 筆待辦事項
Agent 思考:格式化後發送到 Telegram
Agent 行動:呼叫 Telegram Skill → 發送整理好的清單
Agent 觀察:發送成功
Agent 回覆:「已經把 5 項待辦事項發到你的 Telegram 了!」

詳見 Agent 完全指南


進階:Tree of Thoughts(思維樹)

從鏈到樹

CoT 是一條線的思考路徑——從 A → B → C → 答案。

但有些問題沒有明確的下一步,需要探索多條路線

Chain-of-Thought(鏈):
A → B → C → 答案

Tree of Thoughts(樹):
         A
       / | \
      B  C  D
     /|    / \
    E  F  G   H
    ✅     ✅
  (找到兩條可行路線,選最好的)

什麼時候需要思維樹?

問題類型用 CoT 就好需要 Tree of Thoughts
數學計算
翻譯
創意寫作✅(需要嘗試不同風格)
策略規劃✅(需要比較多種方案)
程式 Debug✅(需要假設多個原因)

鴨編 OpenClaw 的蜂群智能模式就像自動化的思維樹——多個 Agent 各走不同路線,最後投票選最好的結果。詳見 多 Agent 協作


推理技術對照表

技術核心概念適用場景OpenClaw 應用
Zero-shot CoT加一句「一步步思考」日常問題Skill 內的 Prompt
Few-shot CoT給 2-3 個範例特定領域SOUL.md 範例
Self-Consistency多次回答取多數重要決策多次執行比對
ReAct推理 + 行動循環需要工具的任務Agent 核心循環
Tree of Thoughts探索多條路線創意/策略蜂群智能

實際建議:什麼時候用什麼

日常使用(80% 的情況)

在 Prompt 結尾加「讓我們一步步思考」就夠了。不用想太多。

複雜任務

讓 OpenClaw 的 Agent 模式自動處理——它內建了 ReAct 循環,你不用手動管。

重要決策

在 Skill 裡設計多次執行 + 比對結果的流程——這就是 Self-Consistency 思想。


延伸閱讀

這篇文章對你有幫助嗎?

💬 問答區

卡關了?直接在這裡問,其他讀者和作者都能幫忙解答。

載入中...