上下文管理：面向 AI 助手/代理的可控记忆与省 Token 方法

用结构化 Context Pack、摘要分层与存储审计，把“记忆永存”变得可验证、可删除、可复用

LLM上下文管理：结构化模板、省Token、可审计记忆

2026-02-05 14:44

上下文管理LLM提示词工程Token优化记忆/MemoryRAG

TL;DR

这里的“上下文管理”指：管理 LLM/AI 助手在对话、工具调用与记忆中的信息编排与 token 预算（不是代码里的 request context）。
把可复用信息从聊天记录里抽离成结构化 Context Pack（YAML/JSON），对话只传“增量状态”，通常比堆长提示词更省 token、更稳定。
所谓“永久记忆”应理解为外部可审计的持久化（文件/SQLite/向量库/云端账号记忆），而不是模型凭空记住；必须能定位“存哪里、谁可读、能否删”。
代理想“写入电脑文件”需要本地执行层（Function calling/MCP/本地 agent）与权限白名单；否则多半会因沙盒/权限被拒绝。

Key Insights

上下文建议分 4 层：不变指令（原则/角色）、半稳定设置（输出格式/术语表）、任务状态（进度/决定/待办）、证据材料（检索片段/引用）。分层后才能缓存与替换。
结构化格式（YAML/JSON）更利于模型稳定遵循：字段可校验、可 diff、可复用；也便于把“输出格式”固定住，减少花里胡哨的 Markdown 装饰性 token。
token 成本的常见大头是“重复粘贴背景+重复历史”；用摘要分层（distillation）+按需检索（RAG）替代全量对话，通常比“缩写/删字”更有效。
工具宣称“记忆永存”时，常见实现是把摘要/向量嵌入写入本地或云端；若不区分短期上下文与长期存储，容易产生误解并带来隐私风险。

Playbook

建立最小 Context Pack（建议 10–30 行）：goal、non_goals、constraints（token_budget/时限/禁区）、output_format（YAML/JSON/纯文本）、definitions（术语）、paths（可写目录）、privacy（敏感信息规则）。
用“状态文件”替代“长对话”：每轮把关键结论写回 state.yaml（或 JSON），下一轮只传 state + 新输入；每 5–10 轮生成一次 distilled_summary 替换旧历史，避免上下文窗口挤爆。
上资料时优先 RAG：Obsidian/文档切片（例如 500–1000 字）→ 嵌入 → 向量库（Qdrant/Chroma/FAISS）→ 只带 TopK 片段+来源进入提示词；要求模型“基于片段回答并标注来源”。
做“记忆/文件写入”可控化：给长期记忆加 metadata（source、created_at、sensitivity、ttl、consent）；文件写入走本地工具层（如 MCP filesystem server）并限制白名单目录，默认只读，需要显式授权才可写。


# context.yaml（示例骨架）
goal: "把播客整理成可检索要点与索引"
constraints:
  token_budget: 8000
  output_format: "yaml"
paths:
  writable: ["/Users/you/ObsidianVault/Inbox/"]
privacy:
  forbid: ["身份证号", "银行卡", "家庭住址"]
memory:
  long_term_store: "local_sqlite_or_vector_db"
  allow_cloud_sync: false

Diagrams

Options · 速度 vs 可控性的决策图（基于 Options 文本自动定位）

Playbook · 执行步骤时间线（基于 Playbook 文本自动提取）

Options

方案 A（本文主线）：LLM 对话/代理上下文管理，用 Context Pack + 状态文件 + RAG + 存储审计，目标是“省 token、可复用、可追溯、可删除”。
方案 B（另一种定义）：软件工程里的上下文管理（request context/trace/context propagation），更关注链路追踪与故障定位；可用 OpenTelemetry + 结构化日志 + TraceID 贯通调用链。
方案 C（另一种定义）：内容制作/播客“上下文”管理（人物、时间线、术语表、时间戳索引）；可做“每期索引页 + 章节摘要 + 关键词表”，再接入检索；你提到的 PageIndex/相关工具需提供可核验仓库或文档。
工具栈取舍：纯本地（Obsidian + 本地向量库 + 本地模型如 Ollama）隐私最好；云端 API（OpenAI/Anthropic）运维最省；混合模式用本地检索+云端生成，常见于兼顾隐私与效果的团队。

Expert Views

开源 LLM 应用工程师（paraphrase）：更偏向“上下文即数据结构”；通过模板、缓存、检索与摘要管线，把可复用部分从对话里产品化，比单纯拉长 prompt 稳定。
数据隐私/合规顾问（paraphrase）：重点不在“能不能记住”，而在“是否最小化收集、是否有合法授权、是否可删除”；应明确存储位置、访问控制、日志与保留期限。
知识管理/Obsidian 教练（paraphrase）：上下文管理本质是工作流设计；推荐“索引页（Index）+主题摘要（Summary）+来源材料（Source）”三层，让检索替代复制粘贴，降低重复劳动。
成本/产品负责人（paraphrase）：用指标驱动优化；对同一任务做 A/B（Markdown vs YAML、全量历史 vs 摘要+RAG），以 token、时延、返工率三项指标选默认策略，并持续回归测试。

Evidence & Confidence

“分层上下文 + 结构化 Context Pack 能减少 token 并降低跑偏”：置信度 medium；属于常见工程实践，但收益依赖任务与模板质量，需要基于你的样例做 A/B 测量。
“RAG 替代粘贴全文通常更省 token 且更可控”：置信度 high；可直接用 TopK 片段的 token 量化对比，并可通过来源引用提升可追溯性。
“所谓永久记忆多为外部存储/账号功能，而非模型内在记忆”：置信度 medium-high；符合主流 LLM 工作机制，但你提到的 Clawdbot/OpenClaw 具体实现无法在线核验，需看配置/代码/运行目录。
“无法在电脑创建文件多因沙盒/权限/未接入本地工具层”：置信度 medium；在多数聊天产品中成立，但不同 agent 框架默认权限差异大，需要结合你的运行方式（本地/云端/插件）定位。

Next Steps

先选定 1 个高频任务（例如：播客整理/文章写作/项目笔记），把“必须信息”压缩成一份 10–30 行的 context.yaml；后续所有同类任务只改少量字段。
针对“永久记忆存哪里”：请提供 Clawdbot/OpenClaw 的 repo 链接或配置截图；定位时按“配置文件→数据目录→DB/向量库→同步/云端端点→删除流程→日志”逐项核查。
若要利用小宇宙单集：请提供转写文本或至少 5 个带时间戳的片段；我可以输出“章节摘要→关键观点→可检索索引→可复用 Context Pack”。
做一次 A/B：同一输入分别用“Markdown 长提示词”“YAML Context Pack”“摘要+RAG”三种方式，记录 token、耗时、返工次数，最终固化你的默认模板与记忆策略。

Details (Optional)

Details

TL;DR

这里的“上下文管理”指：管理 LLM/AI 助手在对话、工具调用与记忆中的信息编排与 token 预算（不是代码里的 request context）。
把可复用信息从聊天记录里抽离成结构化 Context Pack（YAML/JSON），对话只传“增量状态”，通常比堆长提示词更省 token、更稳定。
所谓“永久记忆”应理解为外部可审计的持久化（文件/SQLite/向量库/云端账号记忆），而不是模型凭空记住；必须能定位“存哪里、谁可读、能否删”。
代理想“写入电脑文件”需要本地执行层（Function calling/MCP/本地 agent）与权限白名单；否则多半会因沙盒/权限被拒绝。

Key Insights

上下文建议分 4 层：不变指令（原则/角色）、半稳定设置（输出格式/术语表）、任务状态（进度/决定/待办）、证据材料（检索片段/引用）。分层后才能缓存与替换。
结构化格式（YAML/JSON）更利于模型稳定遵循：字段可校验、可 diff、可复用；也便于把“输出格式”固定住，减少花里胡哨的 Markdown 装饰性 token。
token 成本的常见大头是“重复粘贴背景+重复历史”；用摘要分层（distillation）+按需检索（RAG）替代全量对话，通常比“缩写/删字”更有效。
工具宣称“记忆永存”时，常见实现是把摘要/向量嵌入写入本地或云端；若不区分短期上下文与长期存储，容易产生误解并带来隐私风险。

Playbook

建立最小 Context Pack（建议 10–30 行）：goal、non_goals、constraints（token_budget/时限/禁区）、output_format（YAML/JSON/纯文本）、definitions（术语）、paths（可写目录）、privacy（敏感信息规则）。
用“状态文件”替代“长对话”：每轮把关键结论写回 state.yaml（或 JSON），下一轮只传 state + 新输入；每 5–10 轮生成一次 distilled_summary 替换旧历史，避免上下文窗口挤爆。
上资料时优先 RAG：Obsidian/文档切片（例如 500–1000 字）→ 嵌入 → 向量库（Qdrant/Chroma/FAISS）→ 只带 TopK 片段+来源进入提示词；要求模型“基于片段回答并标注来源”。
做“记忆/文件写入”可控化：给长期记忆加 metadata（source、created_at、sensitivity、ttl、consent）；文件写入走本地工具层（如 MCP filesystem server）并限制白名单目录，默认只读，需要显式授权才可写。


# context.yaml（示例骨架）
goal: "把播客整理成可检索要点与索引"
constraints:
  token_budget: 8000
  output_format: "yaml"
paths:
  writable: ["/Users/you/ObsidianVault/Inbox/"]
privacy:
  forbid: ["身份证号", "银行卡", "家庭住址"]
memory:
  long_term_store: "local_sqlite_or_vector_db"
  allow_cloud_sync: false

Expert Views

开源 LLM 应用工程师（paraphrase）：更偏向“上下文即数据结构”；通过模板、缓存、检索与摘要管线，把可复用部分从对话里产品化，比单纯拉长 prompt 稳定。
数据隐私/合规顾问（paraphrase）：重点不在“能不能记住”，而在“是否最小化收集、是否有合法授权、是否可删除”；应明确存储位置、访问控制、日志与保留期限。
知识管理/Obsidian 教练（paraphrase）：上下文管理本质是工作流设计；推荐“索引页（Index）+主题摘要（Summary）+来源材料（Source）”三层，让检索替代复制粘贴，降低重复劳动。
成本/产品负责人（paraphrase）：用指标驱动优化；对同一任务做 A/B（Markdown vs YAML、全量历史 vs 摘要+RAG），以 token、时延、返工率三项指标选默认策略，并持续回归测试。

Options

方案 A（本文主线）：LLM 对话/代理上下文管理，用 Context Pack + 状态文件 + RAG + 存储审计，目标是“省 token、可复用、可追溯、可删除”。
方案 B（另一种定义）：软件工程里的上下文管理（request context/trace/context propagation），更关注链路追踪与故障定位；可用 OpenTelemetry + 结构化日志 + TraceID 贯通调用链。
方案 C（另一种定义）：内容制作/播客“上下文”管理（人物、时间线、术语表、时间戳索引）；可做“每期索引页 + 章节摘要 + 关键词表”，再接入检索；你提到的 PageIndex/相关工具需提供可核验仓库或文档。
工具栈取舍：纯本地（Obsidian + 本地向量库 + 本地模型如 Ollama）隐私最好；云端 API（OpenAI/Anthropic）运维最省；混合模式用本地检索+云端生成，常见于兼顾隐私与效果的团队。

Evidence & Confidence

“分层上下文 + 结构化 Context Pack 能减少 token 并降低跑偏”：置信度 medium；属于常见工程实践，但收益依赖任务与模板质量，需要基于你的样例做 A/B 测量。
“RAG 替代粘贴全文通常更省 token 且更可控”：置信度 high；可直接用 TopK 片段的 token 量化对比，并可通过来源引用提升可追溯性。
“所谓永久记忆多为外部存储/账号功能，而非模型内在记忆”：置信度 medium-high；符合主流 LLM 工作机制，但你提到的 Clawdbot/OpenClaw 具体实现无法在线核验，需看配置/代码/运行目录。
“无法在电脑创建文件多因沙盒/权限/未接入本地工具层”：置信度 medium；在多数聊天产品中成立，但不同 agent 框架默认权限差异大，需要结合你的运行方式（本地/云端/插件）定位。

Next Steps

先选定 1 个高频任务（例如：播客整理/文章写作/项目笔记），把“必须信息”压缩成一份 10–30 行的 context.yaml；后续所有同类任务只改少量字段。
针对“永久记忆存哪里”：请提供 Clawdbot/OpenClaw 的 repo 链接或配置截图；定位时按“配置文件→数据目录→DB/向量库→同步/云端端点→删除流程→日志”逐项核查。
若要利用小宇宙单集：请提供转写文本或至少 5 个带时间戳的片段；我可以输出“章节摘要→关键观点→可检索索引→可复用 Context Pack”。
做一次 A/B：同一输入分别用“Markdown 长提示词”“YAML Context Pack”“摘要+RAG”三种方式，记录 token、耗时、返工次数，最终固化你的默认模板与记忆策略。

Sources

小宇宙播客单集线索：https://www.xiaoyuzhoufm.com/episode/692275cbcbba038b42d55bdc （无法在线核验；建议提供转写/要点）
你的记录与讨论上下文：https://github.com/EOMZON/myObsidian/issues/35 （含相关短链与截图，可作为落地案例素材）
相关线索（均无法在线核验）：微信文章 https://mp.weixin.qq.com/s/NkAh0yh9vP073Kcu7SsInw ；小红书短链 http://xhslink.com/o/9TfGQsxv5SC http://xhslink.com/o/4alY0euCR0v http://xhslink.com/o/89M43PCDYVt http://xhslink.com/o/2iveJsp5AxL
工具与框架参考：OpenAI 文档 https://platform.openai.com/docs ；Model Context Protocol https://modelcontextprotocol.io/ ；tiktoken https://github.com/openai/tiktoken ；LlamaIndex https://github.com/run-llama/llama_index ；LangChain https://github.com/langchain-ai/langchain ；Qdrant https://github.com/qdrant/qdrant ；Prompt 压缩（可选）LLMLingua https://github.com/microsoft/LLMLingua

Sources

小宇宙播客单集线索：https://www.xiaoyuzhoufm.com/episode/692275cbcbba038b42d55bdc （无法在线核验；建议提供转写/要点）
你的记录与讨论上下文：https://github.com/EOMZON/myObsidian/issues/35 （含相关短链与截图，可作为落地案例素材）
相关线索（均无法在线核验）：微信文章 https://mp.weixin.qq.com/s/NkAh0yh9vP073Kcu7SsInw ；小红书短链 http://xhslink.com/o/9TfGQsxv5SC http://xhslink.com/o/4alY0euCR0v http://xhslink.com/o/89M43PCDYVt http://xhslink.com/o/2iveJsp5AxL
工具与框架参考：OpenAI 文档 https://platform.openai.com/docs ；Model Context Protocol https://modelcontextprotocol.io/ ；tiktoken https://github.com/openai/tiktoken ；LlamaIndex https://github.com/run-llama/llama_index ；LangChain https://github.com/langchain-ai/langchain ；Qdrant https://github.com/qdrant/qdrant ；Prompt 压缩（可选）LLMLingua https://github.com/microsoft/LLMLingua

Closing Summary

结论：LLM上下文管理：结构化模板、省Token、可审计记忆
下一步：请补充：你用的是哪套工具（ChatGPT/Claude/API/Obsidian 插件/Clawdbot/OpenClaw）+ 你希望“长期记忆”落本地还是云端；我可据此给出可直接套用的 context.yaml 与存储审计步骤。

One next action

请补充：你用的是哪套工具（ChatGPT/Claude/API/Obsidian 插件/Clawdbot/OpenClaw）+ 你希望“长期记忆”落本地还是云端；我可据此给出可直接套用的 context.yaml 与存储审计步骤。

上下文管理：面向 AI 助手/代理的可控记忆与省 Token 方法

TL;DR

Key Insights

Playbook

Diagrams

Options

Expert Views

Evidence & Confidence

Next Steps

Details (Optional)

TL;DR

Key Insights

Playbook

Expert Views

Options

Evidence & Confidence

Next Steps

Sources

Related

Sources

Closing Summary