AI 記憶的基礎建設缺失:為什麼大模型越強,Agent 越容易「原地踏步」?
記憶不是 AI 的附加功能,而是讓 Agent 從「工具」變成「夥伴」的核心基礎建設。這篇文章不跟你解釋論文,而是帶你想清楚:如果你在設計 AI Agent,記憶這一層你到底在解決什麼問題?
一個讓我停下來想很久的問題
假設你做了一個 AI Agent,用它來協助管理專案、寫程式、追蹤決策紀錄。
用了三個月之後,它有沒有變得更了解你、更懂你的工作方式?
大多數情況的答案是:沒有。
它每次都是同一個它。你每次都要重新說明背景、偏好、這個專案的特殊規則。三個月的互動,就像三個月的白費——從系統的角度看,你們是陌生人。
這個問題不是模型不夠強。GPT-4、Claude 3.5、Gemini 2.0——這些模型的推理能力已經很驚人了。問題出在另一層,一層多數人設計系統時都會忽略的基礎建設:記憶。
鴨編按: 2025 年底有一篇很紮實的 survey 論文(Hu, Yuyang et al., “Memory in the Age of AI Agents”, arXiv:2512.13564,102 頁),幫我把這塊想清楚了不少。這篇文章不是論文摘要,而是我從設計系統的角度,把我覺得有用的部分整理出來。
先把問題定義清楚:你在解決哪一層的記憶?
在 AI 圈,「加入記憶功能」這句話有四種完全不同的意思,混搭了會做出奇怪的東西:
| 你要解決的問題 | 你實際上在做的事 | 技術方向 |
|---|---|---|
| 「讓 AI 查得到我們的文件」 | 知識檢索 | RAG |
| 「對話太長,模型開始忘前面的事」 | 脈絡管理 | Context Engineering |
| 「讓模型本能知道某個領域」 | 能力內化 | 模型微調 / 架構改動 |
| 「讓 Agent 跨對話、跨任務累積成長」 | 真正的代理記憶 | Agent Memory |
前三種都是工具——很有用,但它們都是靜態的。你放進去什麼,它就輸出什麼,系統本身不會因為跟你互動而改變。
Agent Memory 不一樣。論文給的定義是:一個持久、自我演進的系統,讓 Agent 在時間流逝中保持一致性與適應能力。
關鍵詞是「演進」——不只是查,而是每次互動後都在調整自己的記憶庫,決定什麼值得留下、怎麼更新、什麼可以刪掉。
記憶存在哪裡?三種物理形式
這是論文 Forms(形式)維度的核心問題。記憶的「載體」決定了它的速度、成本與可維護性:
📝 存成文字(Token-level)
最直觀:把資訊存成人看得懂的文字、JSON、知識圖譜,放在外部資料庫。
這是大多數 Agent 記憶系統選擇的形式,原因很實際:可讀、可改、可偵錯。出了問題,你打開資料庫就能看到裡面存了什麼亂七八糟的東西。
但代價是每次用都要先搜一遍,而且資料量大時,搜尋的召回率會下滑。
架構設計上有一個常見的演進路徑:
- 平面列表 → 簡單但難以表達關聯
- 圖 / 樹狀結構 → 可以表達「A 和 B 相關」
- 多層階層 → 可以同時查全局摘要和局部細節
MemGPT、Mem0 這類系統主要倚賴這種形式。
🧠 燒進模型(Parametric)
把資訊直接「寫入」模型的神經網路權重裡。技術路徑包括:
- LoRA 微調(Efficient Fine-Tuning)
- 模型編輯技術(ROME、MEMIT——可以精準修改模型對某個事實的認知)
好處是零延遲——模型「天生就知道」,不需要搜尋。
但這種形式有一個很致命的問題叫做「災難性遺忘」(Catastrophic Forgetting)——把新知識燒進去,模型可能會忘掉之前學過的東西。這不是 bug,是神經網路的根本特性。如果你需要頻繁更新的記憶,這條路代價很高。
💧 壓縮成向量(Latent)
介於前兩者之間:把資訊壓縮成連續的數值向量,存在 KV Cache 或中間層狀態裡。資訊密度高、機器處理快,但你沒辦法直接「讀」它——偵錯很困難。
記憶要拿來幹嘛?三種功能,重要性不同
這是論文 Functions(功能)維度。傳統「短期/長期記憶」的分法太粗糙,按用途分更有工程價值:
事實記憶:讓行為保持一致
「這位使用者叫小明,偏好繁體中文、習慣在晚上工作」
「這個專案的 API Key 有效期到 3 月,且使用限額是每天 10K 次」
事實記憶的目的是讓 Agent 在不同 session、不同對話裡,不會忘記基本的背景脈絡。多數實作都有這塊——這是最容易起步的部分。
工作記憶:任務進行中的暫態
就像你做數學題時的草稿紙——任務結束就清乾淨,不需要永久保存。這塊通常由框架自動管理,開發者不太需要特別設計。
經驗記憶:讓 Agent 真正「學到東西」
這才是記憶系統真正有趣、也最少被做到的部分。
| 類型 | 儲存的是什麼 | 舉例 |
|---|---|---|
| 案例式(Case-based) | 完整的原始互動軌跡 | 「上次幫使用者除錯那段對話的紀錄」 |
| 策略式(Strategy-based) | 抽象化的工作流程與洞見 | 「遇到這類 API 錯誤,先試 X 再試 Y」 |
| 技能式(Skill-based) | 可執行的程式碼或工具調用 | 「自動生成週報的腳本」 |
說白了,事實記憶是在更新「名片」,經驗記憶是在更新「技能樹」。大多數 Agent 系統只做了名片,沒有技能樹。一個三個月後還跟第一天一樣的 Agent,不是缺大腦,是缺了一套能累積能力的機制。
記憶怎麼活著?生命週期才是真正的難題
形式和功能都想好了,最難設計的其實是論文 Dynamics(動力學)這一層:記憶是怎麼誕生、怎麼成長、怎麼死去的?
形成(Formation):什麼值得記?
記憶不是把對話紀錄全塞進資料庫,而是要主動「萃取」:
- 把線性對話壓縮成核心語義摘要
- 把互動解析成知識圖譜中的節點與邊
- 偵測「關鍵事件」(你說了一句很重要的偏好,或者 Agent 犯了一個有意義的錯誤)
演進(Evolution):穩定性 vs. 可塑性的拉鋸
記憶一旦存下來,不能是靜態的。這裡有幾個子問題:
Consolidation(鞏固):把零散的碎片合併成有意義的模式。你沒必要記「昨天的每一個字」,但「使用者的四個慣性偏好」值得保留。
Updating(更新):新資訊和舊記憶衝突怎麼辦?「使用者說偏好中文」後來又說「英文 code 就好」——誰蓋掉誰,還是並存?
Forgetting(遺忘):主動刪掉低價值的資訊。
遺忘是記憶系統的第一等公民,不是補丁。一個從不遺忘的 Agent,最終會被自己三個月前的錯誤判斷搞垮。現在大多數實作的盲點不是「存不夠多」,而是「沒設計過刪除邏輯」。
提取(Retrieval):不只是搜索,而是主動決策
傳統 RAG 的提取是被動的:「用戶問了什麼,就搜什麼」。
Agent 記憶的提取要更主動:
- 什麼時候需要去調用記憶?(不是每個問題都需要)
- 要找什麼才能幫助當前的推理,而不是找最相似的片段?
論文提到的一個新趨勢是生成式提取(Generative Retrieval)——不去查資料庫,而是直接讓模型「合成」一個當下最適用的記憶情境。這個方向很有潛力,但還在早期。
五個現在正在浮現的前沿方向
這是原始論文最有前瞻性的部分,也是最少人提到的部分:
1. 記憶自動化(Memory Automation)
現在大多數系統的記憶管理都要人工規則:「超過 X 條就摘要」、「超過 N 天就刪」。
下一步是用強化學習讓 Agent 自己學會什麼時候要記、記什麼格式、什麼時候可以忘——記憶管理本身變成一個可以被優化的策略。
2. 多模態記憶(Multimodal Memory)
文字型記憶已經有一套做法,但現實世界的 Agent 要處理的不只是文字。
截圖裡的 UI 狀態、語音對話中的情緒線索、影片操作流程——這些都是記憶。「怎麼跨模態儲存和提取記憶」是一個還沒有標準答案的問題。
3. 多智能體共享記憶(Multi-Agent Memory)
當你的系統不是一個 Agent,而是十個 Agent 分工協作,記憶怎麼共享?
問題很具體:Agent A 學到了一個技巧,Agent B 應不應該自動知道?假設 Agent B 後來發現那個技巧在某場景不管用,這個「校正」要不要同步回去?這個問題目前沒有很好的答案。
4. 從向量堆到知識圖譜
這是目前最明確的技術趨勢。純向量 RAG 對「單跳問題」(直接查一件事)夠用,但遇到「多跳關聯」(A 依賴 B,B 依賴 C,然後問 A 和 C 的關係)就力不從心了。
正在受到關注的工作:
| 系統 | 方向 |
|---|---|
| GraphRAG | 用圖結構組織文件,支援社群級摘要 |
| HippoRAG 2 | 模仿海馬迴結構,結合語義搜尋與圖索引 |
| AriGraph | 讓 Agent 在使用過程中自己建構和維護知識圖 |
共同邏輯:記憶要有結構,不能只是一堆向量。
5. 記憶的可信賴性(Trustworthiness)
這個幾乎沒有人在認真討論,但會越來越重要:
- 隱私:Agent 記憶或許包含使用者的敏感資訊,誰可以讀?誰可以刪?
- 幻覺污染:如果 Agent 記住了一個它自己「想出來」的錯誤事實,之後每次都會被這個假記憶影響
- 可解釋性:「為什麼你今天給我這個答案」——能不能追溯是哪條記憶影響了這個決策?
幻覺污染的問題讓我覺得特別需要認真對待。一個人如果聽信謠言並記住了,你可以跟他解釋、糾正。AI Agent 的記憶如果被錯誤資訊污染,清理起來沒有這麼直觀——特別是當這個錯誤記憶已經影響了好幾輪決策的時候。
現況的天花板在哪裡?
帳面數字 vs. 實際效能
「現在模型支援 100K tokens 上下文」——這句話存在巨大的水分。
Lost-in-the-middle 效應是一個有充分實驗支持的現象:把關鍵資訊放在長 context 的中間,模型回答品質會顯著下滑。帳面上的 100K,實際有效工作範圍遠小於這個數字。
Benchmark 告訴你的事
MemoryAgentBench 的數據顯示,當測試 context 從 6K 拉到 32K 時,現有系統效能大幅崩落。記憶一致性、時間推理、衝突更新——這些在 context 變長之後都十分不穩定。
但有一個具體的希望數字
MemGPT 在跨 session 記憶檢索任務上,把正確率從基線的 32–39% 拉到了 67–93%。
這不是小改進,這是根本性的差異。說明「外部結構化記憶架構是值得投資的」這件事不只是理論,已經有具體的效果可以對比了。
如果你現在要做決策
選工具前先問對問題
不是「哪個框架最好」,而是「我要解決的是哪一層的記憶問題」:
- 需要讓 AI 查到文件知識 → RAG 夠用,選成熟工具
- 需要跨 session 記住使用者個人資訊 → 外部 Token-level 記憶,MemGPT / Mem0 是起點
- 需要讓 Agent 從過去的任務中學到做法 → Experiential Memory,要自己設計存取邏輯
- 需要讓模型本能掌握某個領域 → 微調,但要準備好接受更新困難的代價
最容易被遺漏的兩件事
一、遺忘機制:大多數實作花很多時間在「怎麼存」,幾乎不想「什麼時候刪」。但沒有刪除邏輯的記憶系統,幾個月後就是一個雜訊堆。
二、記憶的結構:用向量嵌入存一堆碎片和用知識圖譜存有關聯的節點,在查詢複雜問題時效果差距很大。如果你的 Agent 需要做跨主題的推理,平面向量庫遲早會成為瓶頸。
最後,一個視角的轉換
AI 的記憶問題,很多人把它當「功能迭代」看——先讓模型更強,記憶的問題之後再說。
但論文提出了一個值得認真思考的框架:記憶應該是 Agent 設計的第一等基礎建設,不是附加功能。
就像你設計一個資料庫應用,不會說「先把 UI 做好,資料庫之後再加」——記憶層的架構決策,會決定整個系統未來能走多遠。
現在這個領域還很早期,很多問題還沒有標準答案。但正因為如此,現在想清楚這層,比之後再補救要便宜得多。
延伸閱讀
- 論文原文:Memory in the Age of AI Agents (arXiv:2512.13564)
- 論文 Paper List:Shichun-Liu/Agent-Memory-Paper-List
- 想了解 OpenClaw 的記憶機制設計?看 Soul 系統
這篇文章對你有幫助嗎?
💬 問答區
卡關了?直接在這裡問,其他讀者和作者都能幫忙解答。
載入中...