認識 OpenClaw 入門

AI 技術演進全景圖:從 Transformer 到蜂群智能,一次看懂

2017 年一篇論文改變了世界。用 10 分鐘了解 AI/LLM 的技術發展脈絡,搞懂 OpenClaw 背後的所有技術為什麼存在。

📝 建立:2026年2月27日 ✅ 最後驗證:2026年2月27日
鴨編 卡住很正常——點段落旁的 😵 卡關 讓我們知道,或直接往下滾到問答區發問。 也可以用 👍 看懂 / 😢 看不懂 告訴我們哪裡寫得好、哪裡要改。

為什麼要了解 AI 技術演進?

你可能在想:「我只是想用 OpenClaw,幹嘛要知道 Transformer?」

好問題。你不需要會修汽車引擎才能開車。但如果你知道:

  • 引擎大 = 馬力大 = 適合爬山
  • 油電混合 = 省油 = 適合通勤

你就能選到最適合你的車

理解 AI 技術演進也一樣。知道每項技術「解決什麼問題」,你用 OpenClaw 的時候會知道:

  • 為什麼不同模型價格差 10 倍?
  • 為什麼 Agent 比 Chatbot 強?
  • 為什麼 OpenClaw 的 Skill 系統這麼設計?

鴨編 放心,不會有數學公式。我們用比喻說人話。


技術演進時間軸

先看全貌,細節後面解釋:

2017 ── Transformer 架構 ← 一切的起點

2018 ── GPT-1(1.17 億參數)

2019 ── GPT-2(15 億參數)

2020 ── GPT-3(1750 億參數)、Prompt Engineering

2022 ── ChatGPT、Chain-of-Thought、ReAct

2023 ── GPT-4、Function Calling、RAG、Agent 概念爆發

2024 ── Multi-Agent、MCP 協定、Skill 生態系統

2025 ── Swarm Intelligence(蜂群智能)

2026 ── OpenClaw 整合全部能力,個人 AI 助理普及 ← 你在這裡

每一步都是在解決「上一步做不到的事」。接下來我們逐段看。


第一章:一切的起點——Transformer(2017)

一篇改變世界的論文

2017 年,Google 的研究員發了一篇論文:《Attention Is All You Need》

這篇論文提出了 Transformer 架構——今天所有 AI 大模型(GPT、Claude、Gemini)的基礎。

Self-Attention 是什麼?

用一個例子:

丟給了,然後接住了。」

人類讀這句話,天生知道第二個「他」跟第一個「他」是同一個人,「球」也是同一顆球。

但電腦不行。以前的 AI(RNN/LSTM)像逐字閱讀的人——讀到句尾時已經忘了句首。

Self-Attention 讓 AI 可以同時看到整個句子裡每個詞跟其他詞的關係。

鴨編 比喻:RNN 像一個人用手指一個字一個字讀。Transformer 像一個人把整頁攤開,眼睛同時掃全文。哪個讀得好?當然是看全文的。

三大核心創新

創新解決什麼問題比喻
Self-Attention理解詞與詞的關係鳥瞰全文而非逐字閱讀
平行計算訓練速度太慢100 人同時閱卷,而非 1 人改完才換下一個
位置編碼模型不知道詞的順序給每個詞一個座號,讓 AI 知道誰在前誰在後

第二章:GPT 的進化——從玩具到天才(2018-2023)

參數量 = 大腦容量

GPT 的全名是 Generative Pre-trained Transformer——用 Transformer 架構做的生成式預訓練模型。

它的進化路線,就是一路「變大」:

版本發布年參數量核心突破
GPT-120181.17 億證明「先大量閱讀,再學特定任務」的路線可行
GPT-2201915 億「零樣本學習」——沒教過的任務也能做
GPT-320201750 億「湧現能力」——突然表現出類似理解的行為
GPT-42023未公開多模態(看圖+文字)、推理能力大幅提升

什麼是「湧現能力」?

這是 AI 領域最神奇的現象:

模型從「笨」到「聰明」不是漸進的,而是在某個規模突然跳躍。

就像:

  • 100 隻螞蟻 → 只是一堆蟲
  • 10,000 隻螞蟻 → 突然建出精密蟻穴

GPT-3 在 1750 億參數時,突然會做翻譯、寫程式、回答邏輯問題——但這些從來沒有人教過它。研究者到現在還沒完全搞懂為什麼。

鴨編 這就是為什麼 AI 領域的人老說「scaling law」——把模型做大,可能就會出現新能力。有點像煉丹。


第三章:學會「怎麼問」——Prompt Engineering(2020)

當 GPT-3 出現後,人們發現一個有趣的事:

同一個模型,問法不同,結果差 10 倍。

❌ "幫我寫一封信"
→ 泛泛的模板,還要改 80%

✅ "你是一位資深HR。請用專業但溫暖的語氣,
    寫一封 300 字的辭職信。感謝公司栽培,
    但因個人職涯規劃決定離開。"
→ 直接能用的成品

這引發了 Prompt Engineering(提示工程)的研究。

Prompt 的四代演進

做法效果
第一代直接提問隨機
第二代角色設定(「你是…」)好很多
第三代結構化(角色 + 任務 + 格式 + 限制)穩定
第四代Chain-of-Thought(「讓我們一步步思考…」)推理大幅提升

想深入學 Prompt?看 Prompt 工程完整教學

在 OpenClaw 中SOUL.md 就是你的「超級 System Prompt」——定義 Agent 的角色、性格、行為準則。寫好 SOUL,等於幫你的 AI 做好第三代 Prompt。


第四章:Context Window——AI 的短期記憶

為什麼 AI 會忘記你剛才說的?

AI 模型有一個「記憶限制」,叫做 Context Window(上下文窗口)。就像人的工作記憶容量——同時最多記得 7±2 個東西。

Context Window 的演進:

年份模型Context Window相當於
2020GPT-32,048 tokens約 1,500 字
2022GPT-3.54,096 tokens約 3,000 字
2023GPT-4128K tokens約一本小說
2024Claude 3200K tokens約兩本小說
2025Gemini 1.51M+ tokens約十本小說

但上下文窗口不能解決所有問題

窗口再大也有極限。而且窗口越大:

  • 成本越高(按 Token 計費)
  • 注意力越分散(模型可能忽略中間內容)

鴨編 比喻:Context Window 像桌面大小。桌子再大,文件放太多還是會找不到。你需要的其實是一個抽屜系統——要用的時候再拿出來。

這就是為什麼 OpenClaw 有 Memory 系統——不把所有東西塞進窗口,而是用類似搜尋的方式,把相關記憶「檢索」出來,只放你需要的進去。

詳見 RAG 技術解密


第五章:學會推理——Chain-of-Thought(2022)

直接給答案 vs 說出思考過程

2022 年的一篇論文發現:如果讓 AI「說出想法」,推理能力提升 3-5 倍。

❌ 直接問:「Roger 有 5 顆網球。他又買了 2 罐,
   每罐有 3 顆。他現在有幾顆?」
AI 回答:「11」(錯)

✅ CoT 問法:「...讓我們一步步計算」
AI 回答:
   Roger 原本有 5 顆
   他買了 2 罐,每罐 3 顆 → 2×3 = 6 顆
   總共 5 + 6 = 11 顆  ← 對了

ReAct:讓 AI 不只「想」,還會「做」

Chain-of-Thought 讓 AI 學會推理。ReAct 更進一步——讓 AI 在推理的同時可以呼叫工具

你:「明天台北會下雨嗎?」

AI 思考:我需要查天氣預報
AI 行動:呼叫天氣 API → 查詢台北天氣
AI 觀察:API 回傳降雨機率 80%
AI 思考:根據數據,明天很可能下雨
AI 回覆:「明天台北降雨機率 80%,建議帶傘!」

這個循環就是 OpenClaw Agent 的核心運作方式。

想更深入了解推理技術?看 AI 推理技術解密


第六章:工具使用——Function Calling 與 RAG(2023)

Function Calling:AI 學會「動手做事」

2023 年之前,AI 只能「說」。
2023 年之後,AI 學會「做」。

Function Calling 讓 AI 可以主動呼叫外部工具:

用戶需求 → AI 分析 → 決定呼叫哪個工具

                   執行工具(查天氣/發信/存檔...)

                   收到結果 → 組織成回覆

在 OpenClaw 中:每個 Skill 就是一組工具。AI 根據你的指令自動選擇要用哪個 Skill。

詳見 Skill 完全指南

RAG:讓 AI 不再胡說八道

AI 有兩大問題:

  1. 知識有截止日期——它不知道昨天發生的事
  2. 會幻覺——不會的也硬掰

RAG(Retrieval-Augmented Generation)解決了這個問題:先從你的資料庫搜尋相關內容,再讓 AI 基於真實資料回答。

你的問題 → 搜尋你的檔案/筆記 → 找到相關資料

        把資料塞進 Prompt → AI 基於事實回答

在 OpenClaw 中:Memory 系統的 QMD 後端就是 RAG 的實現——你的長期記憶會被向量化,需要時自動檢索。

詳見 RAG 技術入門


第七章:Agent 時代來臨(2023-2024)

結合了推理(CoT)、行動(ReAct)、工具(Function Calling),2023 年 AI Agent 的概念正式爆發。

Agent vs Chatbot

特徵ChatbotAgent
互動方式你問一句,我答一句你給目標,我自主完成
工具使用❌ 不能✅ 主動呼叫
規劃能力❌ 無✅ 自動拆解任務
記憶❌ 對話結束就忘✅ 長期記憶

OpenClaw 的核心定位:個人 AI Agent 平台。

標準化:MCP 協定(2024)

Agent 需要連接各種工具,但每個工具的接口都不同——這很痛苦。

MCP(Model Context Protocol)解決了這個問題,就像 USB-C 統一了所有接口。

AI Agent ←→ MCP 協定 ←→ Slack / Gmail / GitHub / Notion / ...

詳見 MCP 協定完整介紹


第八章:蜂群智能——AI 的未來(2025-2026)

從「一個 Agent」到「一群 Agent」

2024 年出現了 Multi-Agent(多代理)系統。 2025 年更進一步——Swarm Intelligence(蜂群智能)。

靈感來自自然界:一隻蜜蜂不聰明,但一整群蜜蜂可以建出精密的蜂巢。

你的任務:「規劃一趟日本自由行」

蜂群分工:
├── 🗾 路線規劃 Agent ×3(各自用不同策略)
├── 🏨 住宿搜尋 Agent ×3(各找不同平台)
├── 🍜 美食推薦 Agent ×3(各有不同偏好)
├── 🚄 交通安排 Agent ×2
└── 💰 預算優化 Agent ×2

→ 各自完成 → 交叉驗證 → 投票 → 整合為最佳方案

優勢:

  • 多角度思考:避免單一 Agent 的偏見
  • 並行加速:同時處理,而非排隊等候
  • 容錯性:一個 Agent 掛了,其他照跑

在 OpenClaw 中的應用AGENTS.md 可以定義多個專業角色協作。

想深入了解?看 多 Agent 協作與蜂群智能


全技術棧:OpenClaw 整合了什麼

┌─────────────────────────────────────────────────────┐
│                OpenClaw 技術棧                       │
├─────────────────────────────────────────────────────┤
│  應用層  Skills(天氣、郵件、日曆...)               │
│          ↓                                          │
│  協定層  MCP(統一接口標準)                         │
│          ↓                                          │
│  智能層  Agent(感知→思考→行動→觀察)               │
│          ↓                                          │
│  推理層  CoT + Prompt Engineering                   │
│          ↓                                          │
│  模型層  GPT / Claude / Gemini(Transformer 架構)  │
│          ↓                                          │
│  基礎層  Tokenize + Embedding + Attention           │
└─────────────────────────────────────────────────────┘
技術概念OpenClaw 的實現
Transformer/GPT支援多種 LLM 後端
Prompt EngineeringSOUL.md 系統角色定義
Context WindowMemory 長期記憶系統
Chain-of-Thought複雜任務自動拆解
ReActAgent 執行循環
Function CallingSkills 工具呼叫
RAGQMD 記憶後端檢索
MCP內建 MCP 協定支援
Multi-AgentAGENTS.md 多角色設定
Swarm多 Agent 協作模式

學了這些,下一步?

你不需要記住每個技術的細節。重要的是理解它們解決什麼問題

建議的學習順序

  1. 🟢 先搞懂 Prompt——你每天都會用(Prompt 工程
  2. 🟢 再學 Agent 和 Skill——OpenClaw 核心(Agent 指南Skill 指南
  3. 🟡 進階 MCP——擴充能力(MCP 協定
  4. 🟡 理解 RAG 和推理——解鎖深度功能(RAG 技術推理技術
  5. 🔴 探索蜂群智能——未來趨勢(多 Agent 協作

延伸閱讀

這篇文章對你有幫助嗎?

💬 問答區

卡關了?直接在這裡問,其他讀者和作者都能幫忙解答。

載入中...