安裝與部署 中級

Ollama + OpenClaw:本機跑 AI 模型,完全免費零 API 費

用 Ollama 在自己的電腦上跑開源 LLM,搭配 OpenClaw 打造完全離線、零費用的 AI Agent。從安裝到串接,手把手帶你走完全程。

📝 建立:2026年3月2日 ✅ 最後驗證:2026年3月2日
鴨編 卡住很正常——點段落旁的 😵 卡關 讓我們知道,或直接往下滾到問答區發問。 也可以用 👍 看懂 / 😢 看不懂 告訴我們哪裡寫得好、哪裡要改。

為什麼要在本機跑 AI 模型?

你可能想問:「API 那麼方便,為什麼要在自己電腦上跑模型?」

好問題。幾個理由:

優勢說明
💰 完全免費不用付 API 費用,跑多少次都不用錢
🔒 隱私保護資料不會傳到外部伺服器,100% 留在你的電腦
📴 離線可用沒有網路也能用,搭飛機、咖啡廳斷網都不怕
🧪 自由實驗隨便測試,不用擔心 Token 費用爆掉

但也有取捨:

限制說明
⚡ 速度較慢本機推論比雲端 API 慢,取決於你的硬體
💻 硬體需求至少 8GB RAM,有 GPU 更好
🧠 模型能力開源模型目前還比不上 GPT-4o / Claude Sonnet

鴨編 鴨編建議:先用 Ollama 免費練手,等你確定需求後再決定要不要花錢用雲端 API。兩者可以並用,一點也不衝突!


什麼是 Ollama?

Ollama 是一個讓你在本機輕鬆跑開源 LLM 的工具。你可以把它想成「本地版的 AI Studio」——一行指令就能下載和運行各種開源模型。

Ollama = 模型管理員(下載、啟動、管理)
開源 LLM = AI 大腦(Llama、Gemma、Qwen 等)
OpenClaw = 框架(Agent、Skill、工具串接)

三者搭起來,就是一套完全在你電腦上運行的 AI Agent 系統。


🚀 快速體驗路線:ollama launch openclaw

如果你只是想先體驗看看 OpenClaw 長什麼樣子,不想走完整安裝流程,Ollama 提供了一個超快的啟動方式。

前提

  • 已安裝 Ollama v0.15+(下面 Step 2 會教)
  • 已安裝 OpenClaw
    # macOS / Linux
    curl -fsSL https://openclaw.ai/install.sh | bash
    # 或用 npm(需 Node.js 22+)
    npm install -g openclaw
    Windows 使用者:
    iwr -useb https://openclaw.ai/install.ps1 | iex

一鍵啟動

ollama launch openclaw

Ollama 會開啟一個設定頁面,讓你選擇模型和配置 OpenClaw。你可以選擇本機模型或雲端模型:

推薦的雲端模型(免下載、Ollama 免費額度可用):

模型特色
kimi-k2.51T 參數,Agent 任務能力最強
minimax-m2.5最新版,編程與生產力任務
glm-4.7通用型,穩定可靠

選雲端模型的話,不需要 GPU、不需要下載模型到本機,直接就能用。Ollama 帳號目前提供免費額度。

鴨編 社群回報雲端模型效果不錯——可以直接幫你設定 Telegram、Email 等功能。如果 AI 說「請你自己裝」,可以跟它耐心溝通:「請你幫我裝,我不會」或「請你教我,我不懂」,通常它會配合。

💡 如果只想設定、不立即啟動,可以用 ollama launch openclaw --config

查看 Ollama 免費額度

Ollama 的雲端模型有免費額度可用(官方說明):

  1. 前往 ollama.com/settings
  2. 用 Google 帳號登入
  3. 即可查看剩餘免費額度與用量

⚠️ 體驗版限制:透過 ollama launch openclaw 啟動的方式,本質上是在你的作業系統原生環境跑 OpenClaw,部分進階功能可能會受限。如果你要長期使用,建議走下面的完整安裝流程。


Step 1:確認你的電腦規格

在開始之前,先確認你的硬體能跑起來:

最低需求

項目最低需求建議配備
RAM8 GB16 GB 以上
磁碟空間10 GB 可用20 GB 以上(模型越大越吃空間)
GPU不需要(CPU 也能跑)有 NVIDIA / Apple Silicon GPU 更快
作業系統macOS 12+ / Windows 10+ / Linux最新版本

模型大小參考

模型大小RAM 需求適合
Llama 3.2 3B~2 GB8 GB低規電腦、快速測試
Gemma 2 9B~5 GB16 GB日常使用首選
Qwen 2.5 14B~9 GB16 GB中文最強
Llama 3.1 70B~40 GB64 GB最強但吃資源,需 GPU

鴨編 不確定自己電腦夠不夠? 先裝 Ollama、下載最小的模型試試看就知道了,不行再換方案也不虧。


Step 2:安裝 Ollama

macOS

  1. 前往 ollama.com/download
  2. 點擊「Download for macOS」
  3. 打開下載的 .dmg 檔案
  4. 把 Ollama 拖到「應用程式」資料夾
  5. 打開 Ollama

🚨 macOS 安全性提示:如果看到「無法打開 Ollama,因為來自未識別的開發者」,到「系統設定 → 隱私與安全性」拉到底點「仍然開啟」。

Windows

  1. 前往 ollama.com/download
  2. 點擊「Download for Windows」
  3. 執行下載的 .exe 安裝程式
  4. 照著安裝精靈走完(一直按「Next」就好)
  5. 安裝完成後 Ollama 會在背景自動啟動

🚨 Windows 注意:Windows 版本需要 Windows 10 以上。如果你用的是較舊版本,需要先裝 WSL2,再在 Linux 環境裡安裝 Ollama。

Linux

終端機執行一行指令:

# 先安裝 zstd(Ollama 安裝過程需要)
sudo apt install -y zstd

# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

💡 WSL 使用者注意:如果你是在 Windows 的 WSL 環境中安裝,zstd 這步千萬別跳過,否則安裝會卡住。

安裝完成後,啟動 Ollama 服務:

ollama serve

確認安裝成功

不管你是哪個系統,打開終端機(Terminal / PowerShell),輸入:

ollama --version

看到版本號就代表安裝成功:

ollama version 0.6.x

Step 3:下載你的第一個模型

Ollama 安裝好只是一個「空殻」,你需要下載模型才能開始用。

推薦模型(2026 年 3 月)

推薦順序模型為什麼選它
🥇 首選qwen2.5:7b中文能力最強,大小適中
🥈 輕量llama3.2:3b最小最快,低配電腦也跑得動
🥉 均衡gemma2:9bGoogle 出品,英文很強
☁️ 雲端kimi-k2.5 / minimax-m2.5不需下載到本機,Ollama 免費額度可用

鴨編 不想佔硬碟空間? 選雲端模型(如 kimi-k2.5),不需下載任何東西,直接透過 Ollama 帳號的免費額度使用。適合先體驗後決定。更多雲端模型可到 ollama.com 搜尋。

下載模型

# 下載 Qwen 2.5 7B(推薦中文使用者)
ollama pull qwen2.5:7b

下載過程可能需要幾分鐘到十幾分鐘,取決於你的網路速度。

鴨編 下載很慢? 可以先下較小的模型 ollama pull llama3.2:3b(只有約 2GB),先跑起來再說。

測試模型是否可用

ollama run qwen2.5:7b

如果你看到一個對話介面,試著輸入:

你好,請用繁體中文自我介紹

模型會開始回覆。輸入 /bye 離開對話。

查看已下載的模型

ollama list

會顯示所有已下載的模型及其大小。


Step 4:串接 OpenClaw 與 Ollama

現在你有了本機模型,接下來把它接上 OpenClaw。

確認 Ollama 在運行

Ollama 安裝後會常駐在背景。確認它有在跑:

# 測試 Ollama API 是否可用
curl http://localhost:11434/api/tags

如果回傳一串 JSON(包含你下載的模型清單),代表 Ollama 運行正常。

🚨 如果連不到?

  • macOS / Windows:確認 Ollama app 有在運行(系統工具列應該看得到圖示)
  • Linux:執行 ollama serve 啟動服務

設定 OpenClaw

在 OpenClaw 的設定檔 config.yaml 中,加入 Ollama 作為 Provider

providers:
  ollama:
    type: ollama
    base_url: http://localhost:11434
    # Ollama 不需要 API Key,留空或省略即可

models:
  default:
    provider: ollama
    model: qwen2.5:7b
    temperature: 0.7

如果你之前已經有設定雲端 API,可以保留它們,把 Ollama 當成額外的選項:

providers:
  google:
    type: google
    api_key: ${GOOGLE_API_KEY}
  ollama:
    type: ollama
    base_url: http://localhost:11434

models:
  default:
    provider: google
    model: gemini-2.0-flash
  local:
    provider: ollama
    model: qwen2.5:7b
    temperature: 0.7

這樣你就可以在不同 Skill 中選擇用雲端或本機模型。

測試連接

啟動 OpenClaw 並測試:

# 啟動 OpenClaw
openclaw start

# 送一個測試指令
openclaw chat "用繁體中文跟我打招呼"

如果你看到模型的回覆,恭喜——你的本機 AI Agent 跑起來了!🎉


Step 5:效能優化

本機跑模型不像雲端 API 那麼快,但有些技巧可以大幅提升體驗。

確認 GPU 加速

Apple Silicon(M1/M2/M3/M4)

好消息:Ollama 會自動使用 Apple GPU 加速,不需要額外設定。

確認 GPU 是否有被使用:

# 查看模型運行資訊
ollama ps

如果看到 gpu 相關資訊,代表 GPU 加速已啟用。

NVIDIA GPU(Windows / Linux)

需要安裝 NVIDIA CUDA Toolkit

# 確認 NVIDIA 驅動
nvidia-smi

如果指令有回傳 GPU 資訊,Ollama 會自動偵測並使用 NVIDIA GPU。

沒有 GPU?

也能跑!只是速度會慢一些。建議:

  • 用較小的模型(llama3.2:3b 在 CPU 上也很快)
  • 降低 temperature 減少推論時間
  • 關掉其他吃記憶體的程式

記憶體管理

Ollama 會在模型閒置 5 分鐘後自動卸載記憶體。如果你想手動管理:

# 查看目前載入的模型
ollama ps

# 手動停止模型(釋放記憶體)
ollama stop qwen2.5:7b

模型推薦組合

根據你的電腦配備選擇最佳組合:

你的配備推薦模型預期速度
8GB RAM,無 GPUllama3.2:3b每秒 5-10 Token
16GB RAM,Apple M1qwen2.5:7b每秒 15-25 Token
16GB RAM,NVIDIA RTX 3060qwen2.5:14b每秒 20-30 Token
32GB+ RAM,NVIDIA RTX 4090llama3.1:70b每秒 30+ Token

鴨編 參考數據:一般人閱讀中文的速度大約每秒 5-8 個字。所以只要模型能達到每秒 10 Token 以上,體驗就已經不錯了。


進階:Ollama + 雲端 API 混合使用

最聰明的做法是兩者並用——日常雜務用本機模型(免費),重要任務用雲端 API(品質高)。

在 OpenClaw 中設定 Fallback

providers:
  ollama:
    type: ollama
    base_url: http://localhost:11434
  google:
    type: google
    api_key: ${GOOGLE_API_KEY}

models:
  default:
    provider: ollama
    model: qwen2.5:7b
    fallback:
      provider: google
      model: gemini-2.0-flash

  heavy:
    provider: google
    model: gemini-1.5-pro

這樣的設定代表:

  • 預設用 Ollama(免費),如果 Ollama 掛了或太慢,自動切到 Google
  • 重度任務指定用 heavy profile,直接走雲端

在 Skill 中指定模型

# skills/daily-summary.yaml
name: 日常摘要
model: default  # 用本機 Ollama(免費)

# skills/code-review.yaml
name: 程式碼審查
model: heavy  # 用雲端 Gemini Pro(更聰明)

常見問題排解

🚨 Ollama 啟動後 OpenClaw 連不上

症狀:OpenClaw 報錯 Connection refusedCannot connect to Ollama

解法

# 1. 確認 Ollama 有在運行
ollama ps

# 2. 確認 API 端口
curl http://localhost:11434/api/tags

# 3. 如果用 Docker 跑 OpenClaw,要改成
base_url: http://host.docker.internal:11434

🚨 模型回應非常慢

可能原因

  • 模型太大,超過你的 RAM → 換小一號的模型
  • CPU 跑推論 → 確認 GPU 加速是否啟用
  • 電腦在做其他事 → 關掉 Chrome 的 87 個分頁 😅

建議:先用 ollama run 模型名 直接測速度,如果原生就慢,那也不是 OpenClaw 的問題。

🚨 中文回應品質不好

解法

  1. 換用 qwen2.5:7bqwen2.5:14b(中文最佳選擇)
  2. Soul 設定明確指定「使用繁體中文回覆」
  3. 提供 Few-shot 範例讓模型學習你要的風格

🚨 磁碟空間不夠

# 查看模型佔用空間
ollama list

# 刪除不需要的模型
ollama rm llama3.1:70b

本機 vs 雲端 vs 混合:到底該怎麼選?

使用場景推薦方案原因
學習、實驗Ollama(本機)免費,隨便玩
日常輕度使用Ollama + Qwen 7B免費,速度可接受
中文重度使用雲端 API(Gemini Flash)品質好,成本低
隱私敏感資料Ollama(本機)資料不外傳
正式工作流混合模式省錢又保品質
全天候 Agent雲端部署電腦可以關機

下一步

你已經有了一個完全在本機運行的 AI Agent!接下來可以:

鴨編 小密技:裝好 Ollama 之後,你也可以在其他 AI 工具裡用它(像 Obsidian Copilot、Continue.dev),不只是 OpenClaw 專屬的喔!

有問題?到 首頁討論區 一起討論!

這篇文章對你有幫助嗎?

💬 問答區

卡關了?直接在這裡問,其他讀者和作者都能幫忙解答。

載入中...