信息源：把“最新论文”变成“可持续输出的播客”

用RSS/API + 自动化工作流，1个月跑通论文发现→筛选→脚本→音频→发布闭环

搭建论文→摘要→播客的个人情报流水线与信息源清单

2026-02-05 19:17

信息源论文检索RSS播客自动化知识管理工作流自动化

TL;DR

本报告采用的“信息源”定义：可持续、机器可抓取的渠道（RSS/API/邮件）用于跟踪最新论文与科技动态，并为你的目标服务。
最稳的论文信息源组合是：arXiv（预印本）+ Semantic Scholar/OpenAlex（聚合与引用网络）+ PubMed（医疗/生命科学），统一进一个RSS/抓取管道后再做去重与评分。
播客自动化的关键不是“把摘要念出来”，而是固定脚本结构（钩子→3点要点→与你目标的关联→行动项）+ 质量闸门（引用/不确定性/免责声明）。
1个月MVP建议只做一个主题、一个频率、一个发布渠道：先跑通1期端到端，再扩展多主题与知识网络。

Key Insights

信息过载的根因通常是“无目标筛选”：建议先定愿景/季度目标/当前项目，再规定每天进入Inbox的上限与淘汰规则（否则分类树会越建越乱）。
论文“最新”不等于“有用”：用“与你项目的相关度 + 新颖性 + 可信度线索（机构/代码/数据/同行评议状态）”做三维评分，比单纯按时间更有效。
自动生成内容的风险在于幻觉与过度自信：必须把来源ID（DOI/arXivID/PMID）写进show notes，并在脚本中明确“基于摘要/无法确认全文”的范围。
知识网络落地要从“统一主键”开始：每条信息必须绑定一个可重复定位的ID（DOI/arXivID/URL），再谈多级分类、图谱与看板联动。

Playbook

主题与查询配置：为每个主题建立关键词/排除词/同义词表（中英），并固定输出形态（例如“每天3篇快报+每周1期深度”），避免无限扩张。
抓取与聚合：用FreshRSS/Miniflux做统一入口；论文用arXiv RSS/API + Semantic Scholar/OpenAlex检索；资讯源缺RSS时用RSSHub补齐；统一落到“原始条目表（raw）+处理后条目表（curated）”。
去重与筛选：用DOI/arXivID/PMID做硬去重；无ID时用标题相似度去重；设置阈值（例如相关度≥0.7且新颖性≥0.5才进入“可写脚本”队列）。
播客生产与发布：LLM输出结构化稿件（标题/3要点/术语解释/与你目标的关联/风险提示/引用）；TTS用Piper或Coqui生成音频，ffmpeg做降噪与响度归一；用Castopod/Podcast Generator托管并生成RSS，再按目标平台规则分发（平台是否支持RSS导入需你确认）。

Diagrams

Options · 速度 vs 可控性的决策图（基于 Options 文本自动定位）

Playbook · 执行步骤时间线（基于 Playbook 文本自动提取）

Options

轻量可控（推荐起步）：RSS聚合 + 人工挑选 + LLM写稿 + TTS出音频；每天10条上限，确保你能完成闭环而不是堆积。
高自动化：n8n/Prefect定时抓取→评分→自动生成并发布；优点省时，缺点需要监控与人工抽检（否则容易“自动生产低质内容”）。
研究型知识网络：引入OpenAlex引用网络/作者网络，配Neo4j做图谱与主题漂移检测；适合做“长期研究型自媒体”，但1个月内不建议先上图谱工程。
另一种“信息源”定义分支：如果你指的是“社媒情报源（小红书/公众号/社区）”，建议先用RSSHub或邮件转RSS把社媒统一入库，再加“可信度/可复现性”标签，避免社媒带来的噪声主导选题。

Expert Views

开源数据工程师（paraphrase）：优先选“有稳定ID与API”的源，流水线要可重跑（幂等）、可追溯（保留raw），否则越自动化越难排错。
知识管理/PKM教练（paraphrase）：Inbox必须服务项目；每条信息要么进入某个项目的“下一步行动”，要么进“可能有用的资源库”，否则就是心理安慰式收集。
播客制作人（paraphrase）：听感来自叙事与节奏，不是信息量；固定模板、控制时长、加必要的背景解释，比“堆论文名词”更能留住听众。
数据隐私与版权顾问（paraphrase）：引用论文标题/摘要/结论要注意许可与合理使用边界；医疗相关要避免诊疗建议式表述，并加“非医疗建议”免责声明。

Evidence & Confidence

arXiv、Semantic Scholar、OpenAlex、PubMed、Crossref提供API/文档用于检索与拉取元数据：high（有公开官方文档与长期使用案例）。
FreshRSS/Miniflux/RSSHub可用于统一订阅与抓取扩展：high（成熟开源项目，生态完善）。
Piper/Coqui TTS + ffmpeg能实现本地TTS与音频处理，适合自动化播客生产：medium（可行但音色/中文效果与部署成本依模型而异）。
参考链接中的小宇宙单集内容、以及小宇宙是否支持RSS自动导入/自动分发：low（无法在线核验，需要你以平台创作中心规则为准）。

Next Steps

先做“单主题MVP”：选一个你最能持续输出的主题，设定固定栏目（例如“本周3篇论文：一句话结论+为什么重要+你下一步能做什么”）。
确定“单一入口Inbox”与最小标签：入口建议只保留一个（RSS星标或GitHub Issue）；标签先用3类（项目/领域/证据强度），不要一开始就上百标签。
跑通一条样例链路并验收：从抓到一篇论文开始，到生成音频、show notes、RSS、发布完成；把耗时与失败点记录下来再决定要不要全自动。
再扩展到“多级分类/知识网络”：当你累计≥30条curated条目后，再引入主题聚类与图谱（否则图谱只是漂亮但空）。

Details (Optional)

Details

TL;DR

本报告采用的“信息源”定义：可持续、机器可抓取的渠道（RSS/API/邮件）用于跟踪最新论文与科技动态，并为你的目标服务。
最稳的论文信息源组合是：arXiv（预印本）+ Semantic Scholar/OpenAlex（聚合与引用网络）+ PubMed（医疗/生命科学），统一进一个RSS/抓取管道后再做去重与评分。
播客自动化的关键不是“把摘要念出来”，而是固定脚本结构（钩子→3点要点→与你目标的关联→行动项）+ 质量闸门（引用/不确定性/免责声明）。
1个月MVP建议只做一个主题、一个频率、一个发布渠道：先跑通1期端到端，再扩展多主题与知识网络。

Key Insights

信息过载的根因通常是“无目标筛选”：建议先定愿景/季度目标/当前项目，再规定每天进入Inbox的上限与淘汰规则（否则分类树会越建越乱）。
论文“最新”不等于“有用”：用“与你项目的相关度 + 新颖性 + 可信度线索（机构/代码/数据/同行评议状态）”做三维评分，比单纯按时间更有效。
自动生成内容的风险在于幻觉与过度自信：必须把来源ID（DOI/arXivID/PMID）写进show notes，并在脚本中明确“基于摘要/无法确认全文”的范围。
知识网络落地要从“统一主键”开始：每条信息必须绑定一个可重复定位的ID（DOI/arXivID/URL），再谈多级分类、图谱与看板联动。

Playbook

主题与查询配置：为每个主题建立关键词/排除词/同义词表（中英），并固定输出形态（例如“每天3篇快报+每周1期深度”），避免无限扩张。
抓取与聚合：用FreshRSS/Miniflux做统一入口；论文用arXiv RSS/API + Semantic Scholar/OpenAlex检索；资讯源缺RSS时用RSSHub补齐；统一落到“原始条目表（raw）+处理后条目表（curated）”。
去重与筛选：用DOI/arXivID/PMID做硬去重；无ID时用标题相似度去重；设置阈值（例如相关度≥0.7且新颖性≥0.5才进入“可写脚本”队列）。
播客生产与发布：LLM输出结构化稿件（标题/3要点/术语解释/与你目标的关联/风险提示/引用）；TTS用Piper或Coqui生成音频，ffmpeg做降噪与响度归一；用Castopod/Podcast Generator托管并生成RSS，再按目标平台规则分发（平台是否支持RSS导入需你确认）。

Expert Views

开源数据工程师（paraphrase）：优先选“有稳定ID与API”的源，流水线要可重跑（幂等）、可追溯（保留raw），否则越自动化越难排错。
知识管理/PKM教练（paraphrase）：Inbox必须服务项目；每条信息要么进入某个项目的“下一步行动”，要么进“可能有用的资源库”，否则就是心理安慰式收集。
播客制作人（paraphrase）：听感来自叙事与节奏，不是信息量；固定模板、控制时长、加必要的背景解释，比“堆论文名词”更能留住听众。
数据隐私与版权顾问（paraphrase）：引用论文标题/摘要/结论要注意许可与合理使用边界；医疗相关要避免诊疗建议式表述，并加“非医疗建议”免责声明。

Options

轻量可控（推荐起步）：RSS聚合 + 人工挑选 + LLM写稿 + TTS出音频；每天10条上限，确保你能完成闭环而不是堆积。
高自动化：n8n/Prefect定时抓取→评分→自动生成并发布；优点省时，缺点需要监控与人工抽检（否则容易“自动生产低质内容”）。
研究型知识网络：引入OpenAlex引用网络/作者网络，配Neo4j做图谱与主题漂移检测；适合做“长期研究型自媒体”，但1个月内不建议先上图谱工程。
另一种“信息源”定义分支：如果你指的是“社媒情报源（小红书/公众号/社区）”，建议先用RSSHub或邮件转RSS把社媒统一入库，再加“可信度/可复现性”标签，避免社媒带来的噪声主导选题。

Evidence & Confidence

arXiv、Semantic Scholar、OpenAlex、PubMed、Crossref提供API/文档用于检索与拉取元数据：high（有公开官方文档与长期使用案例）。
FreshRSS/Miniflux/RSSHub可用于统一订阅与抓取扩展：high（成熟开源项目，生态完善）。
Piper/Coqui TTS + ffmpeg能实现本地TTS与音频处理，适合自动化播客生产：medium（可行但音色/中文效果与部署成本依模型而异）。
参考链接中的小宇宙单集内容、以及小宇宙是否支持RSS自动导入/自动分发：low（无法在线核验，需要你以平台创作中心规则为准）。

Next Steps

先做“单主题MVP”：选一个你最能持续输出的主题，设定固定栏目（例如“本周3篇论文：一句话结论+为什么重要+你下一步能做什么”）。
确定“单一入口Inbox”与最小标签：入口建议只保留一个（RSS星标或GitHub Issue）；标签先用3类（项目/领域/证据强度），不要一开始就上百标签。
跑通一条样例链路并验收：从抓到一篇论文开始，到生成音频、show notes、RSS、发布完成；把耗时与失败点记录下来再决定要不要全自动。
再扩展到“多级分类/知识网络”：当你累计≥30条curated条目后，再引入主题聚类与图谱（否则图谱只是漂亮但空）。

Sources

学术论文检索与元数据：arXiv API https://info.arxiv.org/help/api/index.html ；arXiv RSS（示例）https://arxiv.org/rss/cs.AI ；Semantic Scholar API https://api.semanticscholar.org/api-docs/ ；OpenAlex Docs https://docs.openalex.org/ ；PubMed E-utilities https://www.ncbi.nlm.nih.gov/books/NBK25501/ ；Crossref REST API https://www.crossref.org/documentation/retrieve-metadata/rest-api/
RSS聚合与扩展：FreshRSS https://github.com/FreshRSS/FreshRSS ；Miniflux https://github.com/miniflux/v2 ；RSSHub https://github.com/DIYgod/RSSHub
自动化与LLM编排：n8n https://github.com/n8n-io/n8n ；Prefect https://github.com/PrefectHQ/prefect ；LangChain https://github.com/langchain-ai/langchain ；LlamaIndex https://github.com/run-llama/llama_index
TTS/音频/播客托管与参考链接：Piper https://github.com/rhasspy/piper ；Coqui TTS https://github.com/coqui-ai/TTS ；ffmpeg https://ffmpeg.org/ ；Castopod https://github.com/ad-aures/castopod ；Podcast Generator https://github.com/PodcastGenerator/PodcastGenerator ；小宇宙参考单集 https://www.xiaoyuzhoufm.com/episode/6983836fc78b823892b211f0 （无法在线核验）

Sources

学术论文检索与元数据：arXiv API https://info.arxiv.org/help/api/index.html ；arXiv RSS（示例）https://arxiv.org/rss/cs.AI ；Semantic Scholar API https://api.semanticscholar.org/api-docs/ ；OpenAlex Docs https://docs.openalex.org/ ；PubMed E-utilities https://www.ncbi.nlm.nih.gov/books/NBK25501/ ；Crossref REST API https://www.crossref.org/documentation/retrieve-metadata/rest-api/
RSS聚合与扩展：FreshRSS https://github.com/FreshRSS/FreshRSS ；Miniflux https://github.com/miniflux/v2 ；RSSHub https://github.com/DIYgod/RSSHub
自动化与LLM编排：n8n https://github.com/n8n-io/n8n ；Prefect https://github.com/PrefectHQ/prefect ；LangChain https://github.com/langchain-ai/langchain ；LlamaIndex https://github.com/run-llama/llama_index
TTS/音频/播客托管与参考链接：Piper https://github.com/rhasspy/piper ；Coqui TTS https://github.com/coqui-ai/TTS ；ffmpeg https://ffmpeg.org/ ；Castopod https://github.com/ad-aures/castopod ；Podcast Generator https://github.com/PodcastGenerator/PodcastGenerator ；小宇宙参考单集 https://www.xiaoyuzhoufm.com/episode/6983836fc78b823892b211f0 （无法在线核验）

Closing Summary

结论：搭建论文→摘要→播客的个人情报流水线与信息源清单
下一步：把你的“兴趣主题清单（3–5个）+目标（1个月内最重要的产出）+播客期望时长/频率+发布平台”发我，我给你一份可直接照抄的订阅清单、去重规则、脚本模板与自动化工作流图。

One next action

把你的“兴趣主题清单（3–5个）+目标（1个月内最重要的产出）+播客期望时长/频率+发布平台”发我，我给你一份可直接照抄的订阅清单、去重规则、脚本模板与自动化工作流图。

信息源：把“最新论文”变成“可持续输出的播客”

TL;DR

Key Insights

Playbook

Diagrams

Options

Expert Views

Evidence & Confidence

Next Steps

Details (Optional)

TL;DR

Key Insights

Playbook

Expert Views

Options

Evidence & Confidence

Next Steps

Sources

Related

Sources

Closing Summary