δ mem：大模型长期记忆开始从“上下文拉长”转向“在线状态层” 核心解读今天 Hacker News 上最值得 llmapis.com 跟进的一篇 AI 研究，不是又一个更大的上下文窗口，也不是再做一层外置记忆胶水，而是这篇很克制、但方向非常对的工作： δ mem: Efficient Online Memory

δ-mem：大模型长期记忆从上下文拉长转向在线状态层的技术解读

May 17, 2026

/ Update May 17, 2026

12 mins

2421 words

Loading views

AI LLM Memory Agent Architecture

δ-mem：大模型长期记忆开始从“上下文拉长”转向“在线状态层”h1

核心解读h2

今天 Hacker News 上最值得 llmapis.com 跟进的一篇 AI 研究，不是又一个更大的上下文窗口，也不是再做一层外置记忆胶水，而是这篇很克制、但方向非常对的工作：δ-mem: Efficient Online Memory for Large Language Models。

如果只看摘要，它像是一种轻量 memory mechanism；但真正值得关注的地方，在于它瞄准了一个越来越清楚的行业瓶颈：当大模型开始承担长期助手、Agent 和多轮工作流时，问题已经不只是“上下文够不够长”，而是“历史信息能不能以足够低成本、足够高利用率被持续保留下来”。

过去两年，行业对“长期记忆”的主流解决思路大致分成三类。第一类是暴力拉长 context window，希望模型自己在更长输入里找到需要的信息；第二类是 RAG 式外部检索，把历史内容存在向量库或数据库里，按需召回；第三类是 workflow 层的工程补丁，例如摘要压缩、分层记忆、会话归档、状态注入。

这些路径都各有价值，但也各有明显边界。长上下文非常贵，而且并不保证模型真的会有效利用远处内容；外部检索擅长“找回来”，却未必擅长把历史状态自然地嵌入当前推理；摘要和记忆工程虽然实用，但很多时候仍然停留在系统层补偿，而不是模型计算路径本身的改造。

δ-mem 的新意，恰恰在于它没有继续在“输入更长”这条路上堆成本，而是引入了一个 compact online state。这是一种更像“运行中记忆寄存器”的思路：把过去信息压进一个固定大小的状态矩阵里，再在后续生成时通过这个状态去修正注意力计算。

这件事为什么重要？因为它隐含了一个很强的判断：长期记忆不一定非得表现为越来越长的文本上下文，它也可以表现为一个持续更新、直接参与推理的内部状态层。 这比单纯把更多 tokens 塞回 prompt，要更接近“模型真的在记住东西”。

论文里给出的实现方式也很有意思。δ-mem 并没有替换主干模型，也没有要求对 backbone 做大规模重训，而是选择在一个冻结的 full-attention backbone 外面，加上一层很小的 associative memory。这个 memory state 用 delta-rule learning 在线更新，然后把 readout 作为低秩修正，注入回主干注意力计算。

换句话说，它不是把记忆做成外挂数据库，也不是把 backbone 整个改成另一种架构，而是在尽量小的侵入式改动下，让模型多出一层“能积累历史痕迹的在线状态”。这种工程取舍非常现实，因为它更有机会兼容现有模型栈，而不是要求整个生态为新架构重写。

从 llmapis.com 的角度看，这篇工作尤其值得发，是因为它踩中的不是一个边缘研究点，而是 Agent 时代最核心的系统矛盾之一。我们最近持续看到很多围绕长期记忆、工作流状态、coding agent 经验沉淀、研究助手上下文复用的项目在冒出来，说明“失忆”已经是大模型走向真实工作的共性痛点。

δ-mem 提供的不是完整产品方案，而是更底层的模型侧回答：与其不断把历史重新拼接成文本喂回去，不如给模型一个小而持续的内部状态，让它在生成过程中天然带着历史痕迹继续往前推理。

这会直接影响长期助手和 Agent 的设计哲学。因为如果这条路线成立，未来很多“记忆系统”就不一定只是在 prompt engineering、RAG orchestration 或 session summarization 上做文章，而会开始出现一层更明确的 model-side online memory substrate。

论文给出的结果虽然不夸张，但很有说服力。作者报告说，仅靠一个 8×8 的在线记忆状态，δ-mem 就能把平均分提高到冻结 backbone 的 1.10×，也达到最强非 δ-mem memory baseline 的 1.15×。更关键的是，它在 memory-heavy benchmark 上收益更明显：在 MemoryAgentBench 上达到 1.31×，在 LoCoMo 上达到 1.20×。

这个结果的含义，不在于“所有任务都大幅提升”，而在于它精准说明：当任务真的依赖长期状态积累时，小而在线的记忆层可以带来结构性增益。 这正是长期助手和 Agent 场景最关心的部分。

更值得注意的是，δ-mem 的收益并不是靠把模型改得非常重来换取的。作者反复强调，它不需要 full fine-tuning，不需要替换 backbone，也不依赖显式 context extension。也就是说，它在试图证明一件事：有效记忆未必意味着更大模型或更长输入，也可能意味着在注意力计算附近放一层极小但持续更新的状态。

从研究趋势上看，这篇论文其实在推动一个很重要的认知转向：过去大家讨论 LLM memory，容易把问题理解成“怎么保存更多内容”；但 δ-mem 让问题更像“怎么让模型在后续推理中低成本地持续利用过去”。这两个问题看起来相近，工程含义却完全不同。

前者天然会走向更多 tokens、更多检索、更多拼接；后者则可能走向更紧凑的状态表示、更接近计算路径的耦合，以及更像系统缓存而非知识库的在线机制。对于想做长期 Agent 的团队来说，这个视角变化很重要。

它也让我们重新看待“记忆”这个词。很多产品层记忆系统更像外部档案馆：需要时去查、查到后再塞回来。而 δ-mem 更像工作记忆与长期痕迹之间的一层折中物：既不是全量保留，也不是完全丢给外部检索，而是在运行中保留一种压缩过的、持续可读的状态。

当然，这篇工作也有边界。第一，它目前更像 memory mechanism proof-of-concept，还不是端到端产品级长期记忆方案；第二，固定小状态矩阵虽然优雅，但它能承载多复杂、多异质的长期知识，仍需要更大规模验证；第三，模型侧在线记忆即便有效，也不太可能彻底替代外部检索、工作流状态机和显式知识库，因为它们解决的是不同层面的问题。

但恰恰因为如此，δ-mem 才更值得记录。它没有宣称“一招解决长期记忆”，而是给出了一个很清晰、很工程化的中间答案：在 backbone 不大改、上下文不无限拉长的前提下，模型可以拥有一个小而持续的在线状态层。

对 llmapis.com 的读者来说，这篇论文真正值得关注的，不只是 benchmark 提升，而是它代表了长期记忆研究的一条更可持续路线：未来高价值的 Agent 记忆系统，很可能不是单靠更长 context 或更花哨 RAG，而是由 外部检索 + 工作流状态 + 模型侧在线记忆 共同构成。

如果说 2025 年大家还在问“大模型能不能记住更多”，那么 2026 年更实际的问题已经变成：它应该以什么形式记住，才能既不太贵，又真的对后续推理有用。 δ-mem 这篇工作，正是在认真回答这个问题。

为什么值得关注h2

1. 它把长期记忆问题从“拉长上下文”转向“增加在线状态层”h3

δ-mem 的核心贡献，不是再给模型更多 tokens，而是给模型一个持续更新的小状态矩阵，让记忆直接耦合到注意力计算里。这比单纯扩 context 更接近“模型真的在记住”。

2. 它非常适合 Agent 与长期助手场景h3

在 MemoryAgentBench 和 LoCoMo 这类 memory-heavy benchmark 上，δ-mem 的收益明显更大。这说明它不是泛泛的架构小修，而是在真正依赖历史积累的任务里有结构性价值。

3. 它为未来记忆系统提供了新的分层思路h3

外部检索、摘要压缩、工作流状态管理不会消失，但 δ-mem 说明模型侧也可以拥有一层轻量在线记忆。未来长期 Agent 很可能会走向多层记忆协同，而不是只押注单一路线。

数据和技术细节h2

论文：Efficient Online Memory for Large Language Models
arXiv：2605.12357
发布时间：2026-05-12
核心机制：
- 冻结的 full-attention backbone
- 一个紧凑的 associative online memory state
- 用 delta-rule learning 在线更新状态
- 通过 readout 对注意力计算施加低秩修正
代表性结果：
- 平均分达到冻结 backbone 的 1.10×
- 达到最强非 δ-mem memory baseline 的 1.15×
- MemoryAgentBench：1.31×
- LoCoMo：1.20×
记忆规模示例：8×8 online state
关键特点：
- 不需要 full fine-tuning
- 不需要替换 backbone
- 不依赖显式 context extension
- 更偏模型侧 memory substrate，而非外部 RAG 工程

来源h2

Hacker News（2026-05-17）
arXiv: https://arxiv.org/abs/2605.12357

标签h2

AI LLM Memory Agent LongContext Research Architecture