AI 記憶的基礎建設缺失：為什麼大模型越強，Agent 越容易「原地踏步」？

一個讓我停下來想很久的問題

假設你做了一個 AI Agent，用它來協助管理專案、寫程式、追蹤決策紀錄。

用了三個月之後，它有沒有變得更了解你、更懂你的工作方式？

大多數情況的答案是：沒有。

它每次都是同一個它。你每次都要重新說明背景、偏好、這個專案的特殊規則。三個月的互動，就像三個月的白費——從系統的角度看，你們是陌生人。

這個問題不是模型不夠強。GPT-4、Claude 3.5、Gemini 2.0——這些模型的推理能力已經很驚人了。問題出在另一層，一層多數人設計系統時都會忽略的基礎建設：記憶。

鴨編按： 2025 年底有一篇很紮實的 survey 論文（Hu, Yuyang et al., “Memory in the Age of AI Agents”, arXiv:2512.13564，102 頁），幫我把這塊想清楚了不少。這篇文章不是論文摘要，而是我從設計系統的角度，把我覺得有用的部分整理出來。

先把問題定義清楚：你在解決哪一層的記憶？

在 AI 圈，「加入記憶功能」這句話有四種完全不同的意思，混搭了會做出奇怪的東西：

你要解決的問題	你實際上在做的事	技術方向
「讓 AI 查得到我們的文件」	知識檢索	RAG
「對話太長，模型開始忘前面的事」	脈絡管理	Context Engineering
「讓模型本能知道某個領域」	能力內化	模型微調 / 架構改動
「讓 Agent 跨對話、跨任務累積成長」	真正的代理記憶	Agent Memory

前三種都是工具——很有用，但它們都是靜態的。你放進去什麼，它就輸出什麼，系統本身不會因為跟你互動而改變。

Agent Memory 不一樣。論文給的定義是：一個持久、自我演進的系統，讓 Agent 在時間流逝中保持一致性與適應能力。

關鍵詞是「演進」——不只是查，而是每次互動後都在調整自己的記憶庫，決定什麼值得留下、怎麼更新、什麼可以刪掉。

記憶存在哪裡？三種物理形式

這是論文 Forms（形式）維度的核心問題。記憶的「載體」決定了它的速度、成本與可維護性：

📝 存成文字（Token-level）

最直觀：把資訊存成人看得懂的文字、JSON、知識圖譜，放在外部資料庫。

這是大多數 Agent 記憶系統選擇的形式，原因很實際：可讀、可改、可偵錯。出了問題，你打開資料庫就能看到裡面存了什麼亂七八糟的東西。

但代價是每次用都要先搜一遍，而且資料量大時，搜尋的召回率會下滑。

架構設計上有一個常見的演進路徑：

平面列表 → 簡單但難以表達關聯
圖 / 樹狀結構 → 可以表達「A 和 B 相關」
多層階層 → 可以同時查全局摘要和局部細節

MemGPT、Mem0 這類系統主要倚賴這種形式。

🧠 燒進模型（Parametric）

把資訊直接「寫入」模型的神經網路權重裡。技術路徑包括：

LoRA 微調（Efficient Fine-Tuning）
模型編輯技術（ROME、MEMIT——可以精準修改模型對某個事實的認知）

好處是零延遲——模型「天生就知道」，不需要搜尋。

但這種形式有一個很致命的問題叫做「災難性遺忘」（Catastrophic Forgetting）——把新知識燒進去，模型可能會忘掉之前學過的東西。這不是 bug，是神經網路的根本特性。如果你需要頻繁更新的記憶，這條路代價很高。

💧 壓縮成向量（Latent）

介於前兩者之間：把資訊壓縮成連續的數值向量，存在 KV Cache 或中間層狀態裡。資訊密度高、機器處理快，但你沒辦法直接「讀」它——偵錯很困難。

記憶要拿來幹嘛？三種功能，重要性不同

這是論文 Functions（功能）維度。傳統「短期/長期記憶」的分法太粗糙，按用途分更有工程價值：

事實記憶：讓行為保持一致

「這位使用者叫小明，偏好繁體中文、習慣在晚上工作」

「這個專案的 API Key 有效期到 3 月，且使用限額是每天 10K 次」

事實記憶的目的是讓 Agent 在不同 session、不同對話裡，不會忘記基本的背景脈絡。多數實作都有這塊——這是最容易起步的部分。

工作記憶：任務進行中的暫態

就像你做數學題時的草稿紙——任務結束就清乾淨，不需要永久保存。這塊通常由框架自動管理，開發者不太需要特別設計。

經驗記憶：讓 Agent 真正「學到東西」

這才是記憶系統真正有趣、也最少被做到的部分。

類型	儲存的是什麼	舉例
案例式（Case-based）	完整的原始互動軌跡	「上次幫使用者除錯那段對話的紀錄」
策略式（Strategy-based）	抽象化的工作流程與洞見	「遇到這類 API 錯誤，先試 X 再試 Y」
技能式（Skill-based）	可執行的程式碼或工具調用	「自動生成週報的腳本」

說白了，事實記憶是在更新「名片」，經驗記憶是在更新「技能樹」。大多數 Agent 系統只做了名片，沒有技能樹。一個三個月後還跟第一天一樣的 Agent，不是缺大腦，是缺了一套能累積能力的機制。

記憶怎麼活著？生命週期才是真正的難題

形式和功能都想好了，最難設計的其實是論文 Dynamics（動力學）這一層：記憶是怎麼誕生、怎麼成長、怎麼死去的？

形成（Formation）：什麼值得記？

記憶不是把對話紀錄全塞進資料庫，而是要主動「萃取」：

把線性對話壓縮成核心語義摘要
把互動解析成知識圖譜中的節點與邊
偵測「關鍵事件」（你說了一句很重要的偏好，或者 Agent 犯了一個有意義的錯誤）

演進（Evolution）：穩定性 vs. 可塑性的拉鋸

記憶一旦存下來，不能是靜態的。這裡有幾個子問題：

Consolidation（鞏固）：把零散的碎片合併成有意義的模式。你沒必要記「昨天的每一個字」，但「使用者的四個慣性偏好」值得保留。

Updating（更新）：新資訊和舊記憶衝突怎麼辦？「使用者說偏好中文」後來又說「英文 code 就好」——誰蓋掉誰，還是並存？

Forgetting（遺忘）：主動刪掉低價值的資訊。

遺忘是記憶系統的第一等公民，不是補丁。一個從不遺忘的 Agent，最終會被自己三個月前的錯誤判斷搞垮。現在大多數實作的盲點不是「存不夠多」，而是「沒設計過刪除邏輯」。

提取（Retrieval）：不只是搜索，而是主動決策

傳統 RAG 的提取是被動的：「用戶問了什麼，就搜什麼」。

Agent 記憶的提取要更主動：

什麼時候需要去調用記憶？（不是每個問題都需要）
要找什麼才能幫助當前的推理，而不是找最相似的片段？

論文提到的一個新趨勢是生成式提取（Generative Retrieval）——不去查資料庫，而是直接讓模型「合成」一個當下最適用的記憶情境。這個方向很有潛力，但還在早期。

五個現在正在浮現的前沿方向

這是原始論文最有前瞻性的部分，也是最少人提到的部分：

1. 記憶自動化（Memory Automation）

現在大多數系統的記憶管理都要人工規則：「超過 X 條就摘要」、「超過 N 天就刪」。

下一步是用強化學習讓 Agent 自己學會什麼時候要記、記什麼格式、什麼時候可以忘——記憶管理本身變成一個可以被優化的策略。

2. 多模態記憶（Multimodal Memory）

文字型記憶已經有一套做法，但現實世界的 Agent 要處理的不只是文字。

截圖裡的 UI 狀態、語音對話中的情緒線索、影片操作流程——這些都是記憶。「怎麼跨模態儲存和提取記憶」是一個還沒有標準答案的問題。

3. 多智能體共享記憶（Multi-Agent Memory）

當你的系統不是一個 Agent，而是十個 Agent 分工協作，記憶怎麼共享？

問題很具體：Agent A 學到了一個技巧，Agent B 應不應該自動知道？假設 Agent B 後來發現那個技巧在某場景不管用，這個「校正」要不要同步回去？這個問題目前沒有很好的答案。

4. 從向量堆到知識圖譜

這是目前最明確的技術趨勢。純向量 RAG 對「單跳問題」（直接查一件事）夠用，但遇到「多跳關聯」（A 依賴 B，B 依賴 C，然後問 A 和 C 的關係）就力不從心了。

正在受到關注的工作：

系統	方向
GraphRAG	用圖結構組織文件，支援社群級摘要
HippoRAG 2	模仿海馬迴結構，結合語義搜尋與圖索引
AriGraph	讓 Agent 在使用過程中自己建構和維護知識圖

共同邏輯：記憶要有結構，不能只是一堆向量。

5. 記憶的可信賴性（Trustworthiness）

這個幾乎沒有人在認真討論，但會越來越重要：

隱私：Agent 記憶或許包含使用者的敏感資訊，誰可以讀？誰可以刪？
幻覺污染：如果 Agent 記住了一個它自己「想出來」的錯誤事實，之後每次都會被這個假記憶影響
可解釋性：「為什麼你今天給我這個答案」——能不能追溯是哪條記憶影響了這個決策？

幻覺污染的問題讓我覺得特別需要認真對待。一個人如果聽信謠言並記住了，你可以跟他解釋、糾正。AI Agent 的記憶如果被錯誤資訊污染，清理起來沒有這麼直觀——特別是當這個錯誤記憶已經影響了好幾輪決策的時候。

現況的天花板在哪裡？

帳面數字 vs. 實際效能

「現在模型支援 100K tokens 上下文」——這句話存在巨大的水分。

Lost-in-the-middle 效應是一個有充分實驗支持的現象：把關鍵資訊放在長 context 的中間，模型回答品質會顯著下滑。帳面上的 100K，實際有效工作範圍遠小於這個數字。

Benchmark 告訴你的事

MemoryAgentBench 的數據顯示，當測試 context 從 6K 拉到 32K 時，現有系統效能大幅崩落。記憶一致性、時間推理、衝突更新——這些在 context 變長之後都十分不穩定。

但有一個具體的希望數字

MemGPT 在跨 session 記憶檢索任務上，把正確率從基線的 32–39% 拉到了 67–93%。

這不是小改進，這是根本性的差異。說明「外部結構化記憶架構是值得投資的」這件事不只是理論，已經有具體的效果可以對比了。

如果你現在要做決策

選工具前先問對問題

不是「哪個框架最好」，而是「我要解決的是哪一層的記憶問題」：

需要讓 AI 查到文件知識 → RAG 夠用，選成熟工具
需要跨 session 記住使用者個人資訊 → 外部 Token-level 記憶，MemGPT / Mem0 是起點
需要讓 Agent 從過去的任務中學到做法 → Experiential Memory，要自己設計存取邏輯
需要讓模型本能掌握某個領域 → 微調，但要準備好接受更新困難的代價

最容易被遺漏的兩件事

一、遺忘機制：大多數實作花很多時間在「怎麼存」，幾乎不想「什麼時候刪」。但沒有刪除邏輯的記憶系統，幾個月後就是一個雜訊堆。

二、記憶的結構：用向量嵌入存一堆碎片和用知識圖譜存有關聯的節點，在查詢複雜問題時效果差距很大。如果你的 Agent 需要做跨主題的推理，平面向量庫遲早會成為瓶頸。

最後，一個視角的轉換

AI 的記憶問題，很多人把它當「功能迭代」看——先讓模型更強，記憶的問題之後再說。

但論文提出了一個值得認真思考的框架：記憶應該是 Agent 設計的第一等基礎建設，不是附加功能。

就像你設計一個資料庫應用，不會說「先把 UI 做好，資料庫之後再加」——記憶層的架構決策，會決定整個系統未來能走多遠。

現在這個領域還很早期，很多問題還沒有標準答案。但正因為如此，現在想清楚這層，比之後再補救要便宜得多。

一個讓我停下來想很久的問題

先把問題定義清楚：你在解決哪一層的記憶？

記憶存在哪裡？三種物理形式

📝 存成文字（Token-level）

🧠 燒進模型（Parametric）

💧 壓縮成向量（Latent）

記憶要拿來幹嘛？三種功能，重要性不同

事實記憶：讓行為保持一致

工作記憶：任務進行中的暫態

經驗記憶：讓 Agent 真正「學到東西」

記憶怎麼活著？生命週期才是真正的難題

形成（Formation）：什麼值得記？

演進（Evolution）：穩定性 vs. 可塑性的拉鋸

提取（Retrieval）：不只是搜索，而是主動決策

五個現在正在浮現的前沿方向

1. 記憶自動化（Memory Automation）

2. 多模態記憶（Multimodal Memory）

3. 多智能體共享記憶（Multi-Agent Memory）

4. 從向量堆到知識圖譜

5. 記憶的可信賴性（Trustworthiness）

現況的天花板在哪裡？

帳面數字 vs. 實際效能

Benchmark 告訴你的事

但有一個具體的希望數字

如果你現在要做決策

選工具前先問對問題

最容易被遺漏的兩件事

最後，一個視角的轉換

延伸閱讀

這篇文章對你有幫助嗎？

💬 問答區

一個讓我停下來想很久的問題

先把問題定義清楚：你在解決哪一層的記憶？

記憶存在哪裡？三種物理形式

📝 存成文字（Token-level）

🧠 燒進模型（Parametric）

💧 壓縮成向量（Latent）

記憶要拿來幹嘛？三種功能，重要性不同

事實記憶：讓行為保持一致

工作記憶：任務進行中的暫態

經驗記憶：讓 Agent 真正「學到東西」

記憶怎麼活著？生命週期才是真正的難題

形成（Formation）：什麼值得記？

演進（Evolution）：穩定性 vs. 可塑性的拉鋸

提取（Retrieval）：不只是搜索，而是主動決策

五個現在正在浮現的前沿方向

1. 記憶自動化（Memory Automation）

2. 多模態記憶（Multimodal Memory）

3. 多智能體共享記憶（Multi-Agent Memory）

4. 從向量堆到知識圖譜

5. 記憶的可信賴性（Trustworthiness）

現況的天花板在哪裡？

帳面數字 vs. 實際效能

Benchmark 告訴你的事

但有一個具體的希望數字

如果你現在要做決策

選工具前先問對問題

最容易被遺漏的兩件事

最後，一個視角的轉換

延伸閱讀

這篇文章對你有幫助嗎？

📖 延伸閱讀

RAG 技術入門：讓 AI 不再胡說八道的記憶術

OpenClaw Agent 完全指南：打造你的 AI 分身

OpenClaw Soul 完全指南：讓 Agent 擁有記憶、個性與成長能力

多 Agent 協作與蜂群智能：當 AI 學會團隊合作

Token 經濟學：搞懂 AI 怎麼計費，不再帳單爆炸

💬 問答區