信息源到行动:用 RSS + LLM/MCP 搭建目标导向的个人情报系统(含医疗信息)
解决信息过载、自动多级分类、构建知识网络,并在 1 个月内跑通“收集→洞察→内容产出”闭环
搭建目标导向的信息源/情报系统(含Medical MCP思路)
信息源信息过载个人情报系统RSSObsidianMCP
TL;DR
- 术语定义:本文的 MCP 指 Model Context Protocol(让大模型以标准方式调用外部工具/数据);若你说的 MCP 是“医疗照护计划/医联体平台”等另一种含义,见 Options 的分支方案。
- 把“信息源”变成“为目标服务的信号”:每条信息必须落到某个目标/项目/待解决问题,否则自动降级(仅存档)或丢弃,避免“为了获取而获取”。
- 最小可用开源栈:Miniflux/FreshRSS(统一订阅)+ n8n/Huginn(自动化)+ Obsidian(知识库)+ LLM(摘要/分类/去重);MCP 用于把这些能力封装成可复用工具接口。
- 医疗信息属于高风险领域:只做“检索+对照指南+引用来源”的证据汇总,不做诊断与个体化处方;优先连接 PubMed/ClinicalTrials/openFDA/WHO ICD 等可公开 API,并强制输出来源与置信度。
Key Insights
- 过载的根因通常不是“源太多”,而是“缺少目标约束与处理节奏”:把推送改成拉取(RSS + 固定处理时间),并为每个目标设置“信息配额”(例如每周最多 20 条进入精读)。
- 多级分类要先“可计算”:用结构化字段(目标、项目、主题、证据类型、行动建议、复盘日期)替代纯文本标签,LLM 只负责补全字段与给理由,避免分类漂移。
- “知识网络”先从最小链接做起:围绕目标建立 MOC(Map of Content)/索引页,把条目链接到“目标页→项目页→证据卡→产出稿”;图数据库/向量库是后续增强,不是第一天就必需。
- 医疗类“好信息源”应优先看可追溯与更新机制:指南/监管公告/临床试验注册/系统综述比自媒体更稳;把“证据等级与适用范围”作为过滤条件,比只看热度更能提升信噪比。
Playbook
- 目标与分类法(1–2 小时落地):从个人愿景拆成 3–5 个本月目标;为每个目标定义“成功指标、内容支柱、禁止事项”;建立统一字段:source_url、source_type、goal、project、topic、value_score、evidence_level、action_next、review_date。
- 统一收集(0.5 天落地):用 Miniflux/FreshRSS 做唯一入口;无 RSS 的来源优先用官方订阅/邮件转 RSS/公开 API,其次才考虑 RSSHub;小红书等分享短链建议进入“待核验队列”(可能受登录/反爬影响)。
- 自动处理(1 天打通最小链路):n8n/Huginn 定时拉取新条目→抓取正文(trafilatura/readability 一类的正文提取器;抓不到则只存元数据)→LLM 输出“结构化卡片+一句话结论+可执行下一步”→写入 Obsidian(按日期/目标目录)或回写 GitHub Issue(自动打 label/添加到 Project)。
- 医疗 MCP/工具层(后续扩展):把检索/抓取/入库封装为 MCP tools(例如:pubmed_search、trial_lookup、openfda_label、save_note、link_to_goal);强制返回 citations(URL+日期+检索式)与 safety_guardrails(非医疗建议、适用范围、何时就医)。
Diagrams
Options
- 方案 A(最快落地,低工程):Miniflux/FreshRSS + Obsidian 模板;每天手动挑 3 条精读、每周产出 1 个主题;适合你“1 个月内先跑通链路”的时间约束。
- 方案 B(性价比最高,半自动):n8n/Huginn 自动抓取与结构化摘要;GitHub Issues 作为 Inbox 与讨论区,GitHub Projects 做看板;Obsidian 做长期知识库与写作。
- 方案 C(可扩展,工程化):引入向量库(Qdrant/Weaviate)与 GraphRAG/Neo4j 做检索与知识网络;用 MCP 把“检索/入库/排程/发布”统一为工具层,便于后续换模型或换 UI。
- 另一种“MCP”定义分支:若你指的是“医疗照护计划/管理平台(Medical Care Plan)”,则重点改为“模板化随访与提醒 + 合规记录”:用 Obsidian/Notion 建照护计划模板、用日历/自动化做随访提醒;不要把重点放在协议层开发。
Expert Views
- 开源数据工程师(paraphrase):先用“可观测、可回放”的流水线(RSS→队列→入库)解决稳定性与去重;Agent 很酷但容易失控,先把数据结构与日志打牢,后面再接 MCP/多智能体。
- 知识管理教练(paraphrase):信息处理的关键在“复盘节奏与产出驱动”;每天 30 分钟清 Inbox、每周 2 小时做周回顾与选题,把“阅读/收藏”改成“写作/产出”优先级。
- 医疗信息学/临床审稿视角(paraphrase):医疗结论必须带证据层级与适用人群;预印本与单中心小样本容易误导,建议对照权威指南与系统综述,并记录更新日期与争议点。
- 数据隐私/合规视角(paraphrase):医疗相关自动化要避免处理可识别个人健康信息;同时注意平台抓取/转载可能触发条款风险,建议保留链接与摘要,不批量搬运原文。
Evidence & Confidence
- “MCP 作为 LLM 调用外部工具的协议框架”——high:有公开项目/文档与社区实现(但你提到的‘第一个 Medical MCP’具体内容需核验)。
- “RSS 聚合 + 定时处理 + 配额能显著降低信息过载”——medium-high:是成熟实践,但效果取决于你是否执行‘配额/复盘/产出’约束。
- “小红书分享短链可稳定自动抓取正文并结构化”——low:无法在线核验且常见限制包括登录、反爬、内容动态加载与条款风险,建议先以“待核验+手动摘要”为主。
- “可用公开 API 组合出 Medical MCP(检索+引用+证据卡)”——medium:PubMed/ClinicalTrials/openFDA 等 API 客观存在,但需处理速率限制、引用规范与医疗安全边界。
Next Steps
- 30 分钟:写下本月唯一主目标(例如“跑通自动化自媒体闭环并发布 4 次”)+ 3 个子目标;每个目标定义 1 个量化指标(发布次数/订阅增长/线索数/收入)。
- 2 小时:在 Obsidian 或 GitHub 仓库建立“条目模板 + 目标索引页(MOC)”;模板字段固定,避免后续难以自动化与统计。
- 0.5 天:部署 Miniflux/FreshRSS;只导入 10 个源(含 1–2 个医疗权威源、1 个学术检索源、1 个工程社区源、1 个商业/产品源),其余先不接入。
- 1 天:用 n8n 跑通最小自动化(RSS→入库→摘要→分类→回写);并为“抓不到正文/无法解析/需要登录”的来源设定降级策略(只存标题+链接+手动一句话)。
Details (Optional)
Details
TL;DR
- 术语定义:本文的 MCP 指 Model Context Protocol(让大模型以标准方式调用外部工具/数据);若你说的 MCP 是“医疗照护计划/医联体平台”等另一种含义,见 Options 的分支方案。
- 把“信息源”变成“为目标服务的信号”:每条信息必须落到某个目标/项目/待解决问题,否则自动降级(仅存档)或丢弃,避免“为了获取而获取”。
- 最小可用开源栈:Miniflux/FreshRSS(统一订阅)+ n8n/Huginn(自动化)+ Obsidian(知识库)+ LLM(摘要/分类/去重);MCP 用于把这些能力封装成可复用工具接口。
- 医疗信息属于高风险领域:只做“检索+对照指南+引用来源”的证据汇总,不做诊断与个体化处方;优先连接 PubMed/ClinicalTrials/openFDA/WHO ICD 等可公开 API,并强制输出来源与置信度。
Key Insights
- 过载的根因通常不是“源太多”,而是“缺少目标约束与处理节奏”:把推送改成拉取(RSS + 固定处理时间),并为每个目标设置“信息配额”(例如每周最多 20 条进入精读)。
- 多级分类要先“可计算”:用结构化字段(目标、项目、主题、证据类型、行动建议、复盘日期)替代纯文本标签,LLM 只负责补全字段与给理由,避免分类漂移。
- “知识网络”先从最小链接做起:围绕目标建立 MOC(Map of Content)/索引页,把条目链接到“目标页→项目页→证据卡→产出稿”;图数据库/向量库是后续增强,不是第一天就必需。
- 医疗类“好信息源”应优先看可追溯与更新机制:指南/监管公告/临床试验注册/系统综述比自媒体更稳;把“证据等级与适用范围”作为过滤条件,比只看热度更能提升信噪比。
Playbook
- 目标与分类法(1–2 小时落地):从个人愿景拆成 3–5 个本月目标;为每个目标定义“成功指标、内容支柱、禁止事项”;建立统一字段:source_url、source_type、goal、project、topic、value_score、evidence_level、action_next、review_date。
- 统一收集(0.5 天落地):用 Miniflux/FreshRSS 做唯一入口;无 RSS 的来源优先用官方订阅/邮件转 RSS/公开 API,其次才考虑 RSSHub;小红书等分享短链建议进入“待核验队列”(可能受登录/反爬影响)。
- 自动处理(1 天打通最小链路):n8n/Huginn 定时拉取新条目→抓取正文(trafilatura/readability 一类的正文提取器;抓不到则只存元数据)→LLM 输出“结构化卡片+一句话结论+可执行下一步”→写入 Obsidian(按日期/目标目录)或回写 GitHub Issue(自动打 label/添加到 Project)。
- 医疗 MCP/工具层(后续扩展):把检索/抓取/入库封装为 MCP tools(例如:pubmed_search、trial_lookup、openfda_label、save_note、link_to_goal);强制返回 citations(URL+日期+检索式)与 safety_guardrails(非医疗建议、适用范围、何时就医)。
Expert Views
- 开源数据工程师(paraphrase):先用“可观测、可回放”的流水线(RSS→队列→入库)解决稳定性与去重;Agent 很酷但容易失控,先把数据结构与日志打牢,后面再接 MCP/多智能体。
- 知识管理教练(paraphrase):信息处理的关键在“复盘节奏与产出驱动”;每天 30 分钟清 Inbox、每周 2 小时做周回顾与选题,把“阅读/收藏”改成“写作/产出”优先级。
- 医疗信息学/临床审稿视角(paraphrase):医疗结论必须带证据层级与适用人群;预印本与单中心小样本容易误导,建议对照权威指南与系统综述,并记录更新日期与争议点。
- 数据隐私/合规视角(paraphrase):医疗相关自动化要避免处理可识别个人健康信息;同时注意平台抓取/转载可能触发条款风险,建议保留链接与摘要,不批量搬运原文。
Options
- 方案 A(最快落地,低工程):Miniflux/FreshRSS + Obsidian 模板;每天手动挑 3 条精读、每周产出 1 个主题;适合你“1 个月内先跑通链路”的时间约束。
- 方案 B(性价比最高,半自动):n8n/Huginn 自动抓取与结构化摘要;GitHub Issues 作为 Inbox 与讨论区,GitHub Projects 做看板;Obsidian 做长期知识库与写作。
- 方案 C(可扩展,工程化):引入向量库(Qdrant/Weaviate)与 GraphRAG/Neo4j 做检索与知识网络;用 MCP 把“检索/入库/排程/发布”统一为工具层,便于后续换模型或换 UI。
- 另一种“MCP”定义分支:若你指的是“医疗照护计划/管理平台(Medical Care Plan)”,则重点改为“模板化随访与提醒 + 合规记录”:用 Obsidian/Notion 建照护计划模板、用日历/自动化做随访提醒;不要把重点放在协议层开发。
Evidence & Confidence
- “MCP 作为 LLM 调用外部工具的协议框架”——high:有公开项目/文档与社区实现(但你提到的‘第一个 Medical MCP’具体内容需核验)。
- “RSS 聚合 + 定时处理 + 配额能显著降低信息过载”——medium-high:是成熟实践,但效果取决于你是否执行‘配额/复盘/产出’约束。
- “小红书分享短链可稳定自动抓取正文并结构化”——low:无法在线核验且常见限制包括登录、反爬、内容动态加载与条款风险,建议先以“待核验+手动摘要”为主。
- “可用公开 API 组合出 Medical MCP(检索+引用+证据卡)”——medium:PubMed/ClinicalTrials/openFDA 等 API 客观存在,但需处理速率限制、引用规范与医疗安全边界。
Next Steps
- 30 分钟:写下本月唯一主目标(例如“跑通自动化自媒体闭环并发布 4 次”)+ 3 个子目标;每个目标定义 1 个量化指标(发布次数/订阅增长/线索数/收入)。
- 2 小时:在 Obsidian 或 GitHub 仓库建立“条目模板 + 目标索引页(MOC)”;模板字段固定,避免后续难以自动化与统计。
- 0.5 天:部署 Miniflux/FreshRSS;只导入 10 个源(含 1–2 个医疗权威源、1 个学术检索源、1 个工程社区源、1 个商业/产品源),其余先不接入。
- 1 天:用 n8n 跑通最小自动化(RSS→入库→摘要→分类→回写);并为“抓不到正文/无法解析/需要登录”的来源设定降级策略(只存标题+链接+手动一句话)。
Sources
- MCP(Model Context Protocol):https://modelcontextprotocol.io/;https://github.com/modelcontextprotocol(无法在线核验)
- RSS/自动化:RSSHub https://github.com/DIYgod/RSSHub;Miniflux https://github.com/miniflux/v2;FreshRSS https://github.com/FreshRSS/FreshRSS;n8n https://github.com/n8n-io/n8n;Huginn https://github.com/huginn/huginn(无法在线核验)
- Obsidian 结构化与可查询:Dataview https://github.com/blacksmithgu/obsidian-dataview;(可选)GraphRAG https://github.com/microsoft/graphrag(无法在线核验)
- 医疗公开数据/API:NCBI E-utilities(PubMed)https://www.ncbi.nlm.nih.gov/books/NBK25501/;ClinicalTrials.gov API https://clinicaltrials.gov/data-api/about-api;openFDA https://open.fda.gov/apis/;WHO ICD API https://icd.who.int/icdapi(无法在线核验;你提供的小红书短链为线索需手动打开核验)
Sources
- MCP(Model Context Protocol):https://modelcontextprotocol.io/;https://github.com/modelcontextprotocol(无法在线核验)
- RSS/自动化:RSSHub https://github.com/DIYgod/RSSHub;Miniflux https://github.com/miniflux/v2;FreshRSS https://github.com/FreshRSS/FreshRSS;n8n https://github.com/n8n-io/n8n;Huginn https://github.com/huginn/huginn(无法在线核验)
- Obsidian 结构化与可查询:Dataview https://github.com/blacksmithgu/obsidian-dataview;(可选)GraphRAG https://github.com/microsoft/graphrag(无法在线核验)
- 医疗公开数据/API:NCBI E-utilities(PubMed)https://www.ncbi.nlm.nih.gov/books/NBK25501/;ClinicalTrials.gov API https://clinicaltrials.gov/data-api/about-api;openFDA https://open.fda.gov/apis/;WHO ICD API https://icd.who.int/icdapi(无法在线核验;你提供的小红书短链为线索需手动打开核验)
Closing Summary
- 结论:搭建目标导向的信息源/情报系统(含Medical MCP思路)
- 下一步:先定目标树与标签体系,再把 RSS/收藏/Issue 统一进同一条自动化流水线。
One next action
先定目标树与标签体系,再把 RSS/收藏/Issue 统一进同一条自动化流水线。