信息源:把“最新论文”变成“可持续输出的播客”
用RSS/API + 自动化工作流,1个月跑通论文发现→筛选→脚本→音频→发布闭环
搭建论文→摘要→播客的个人情报流水线与信息源清单
信息源论文检索RSS播客自动化知识管理工作流自动化
TL;DR
- 本报告采用的“信息源”定义:可持续、机器可抓取的渠道(RSS/API/邮件)用于跟踪最新论文与科技动态,并为你的目标服务。
- 最稳的论文信息源组合是:arXiv(预印本)+ Semantic Scholar/OpenAlex(聚合与引用网络)+ PubMed(医疗/生命科学),统一进一个RSS/抓取管道后再做去重与评分。
- 播客自动化的关键不是“把摘要念出来”,而是固定脚本结构(钩子→3点要点→与你目标的关联→行动项)+ 质量闸门(引用/不确定性/免责声明)。
- 1个月MVP建议只做一个主题、一个频率、一个发布渠道:先跑通1期端到端,再扩展多主题与知识网络。
Key Insights
- 信息过载的根因通常是“无目标筛选”:建议先定愿景/季度目标/当前项目,再规定每天进入Inbox的上限与淘汰规则(否则分类树会越建越乱)。
- 论文“最新”不等于“有用”:用“与你项目的相关度 + 新颖性 + 可信度线索(机构/代码/数据/同行评议状态)”做三维评分,比单纯按时间更有效。
- 自动生成内容的风险在于幻觉与过度自信:必须把来源ID(DOI/arXivID/PMID)写进show notes,并在脚本中明确“基于摘要/无法确认全文”的范围。
- 知识网络落地要从“统一主键”开始:每条信息必须绑定一个可重复定位的ID(DOI/arXivID/URL),再谈多级分类、图谱与看板联动。
Playbook
- 主题与查询配置:为每个主题建立关键词/排除词/同义词表(中英),并固定输出形态(例如“每天3篇快报+每周1期深度”),避免无限扩张。
- 抓取与聚合:用FreshRSS/Miniflux做统一入口;论文用arXiv RSS/API + Semantic Scholar/OpenAlex检索;资讯源缺RSS时用RSSHub补齐;统一落到“原始条目表(raw)+处理后条目表(curated)”。
- 去重与筛选:用DOI/arXivID/PMID做硬去重;无ID时用标题相似度去重;设置阈值(例如相关度≥0.7且新颖性≥0.5才进入“可写脚本”队列)。
- 播客生产与发布:LLM输出结构化稿件(标题/3要点/术语解释/与你目标的关联/风险提示/引用);TTS用Piper或Coqui生成音频,ffmpeg做降噪与响度归一;用Castopod/Podcast Generator托管并生成RSS,再按目标平台规则分发(平台是否支持RSS导入需你确认)。
Diagrams
Options
- 轻量可控(推荐起步):RSS聚合 + 人工挑选 + LLM写稿 + TTS出音频;每天10条上限,确保你能完成闭环而不是堆积。
- 高自动化:n8n/Prefect定时抓取→评分→自动生成并发布;优点省时,缺点需要监控与人工抽检(否则容易“自动生产低质内容”)。
- 研究型知识网络:引入OpenAlex引用网络/作者网络,配Neo4j做图谱与主题漂移检测;适合做“长期研究型自媒体”,但1个月内不建议先上图谱工程。
- 另一种“信息源”定义分支:如果你指的是“社媒情报源(小红书/公众号/社区)”,建议先用RSSHub或邮件转RSS把社媒统一入库,再加“可信度/可复现性”标签,避免社媒带来的噪声主导选题。
Expert Views
- 开源数据工程师(paraphrase):优先选“有稳定ID与API”的源,流水线要可重跑(幂等)、可追溯(保留raw),否则越自动化越难排错。
- 知识管理/PKM教练(paraphrase):Inbox必须服务项目;每条信息要么进入某个项目的“下一步行动”,要么进“可能有用的资源库”,否则就是心理安慰式收集。
- 播客制作人(paraphrase):听感来自叙事与节奏,不是信息量;固定模板、控制时长、加必要的背景解释,比“堆论文名词”更能留住听众。
- 数据隐私与版权顾问(paraphrase):引用论文标题/摘要/结论要注意许可与合理使用边界;医疗相关要避免诊疗建议式表述,并加“非医疗建议”免责声明。
Evidence & Confidence
- arXiv、Semantic Scholar、OpenAlex、PubMed、Crossref提供API/文档用于检索与拉取元数据:high(有公开官方文档与长期使用案例)。
- FreshRSS/Miniflux/RSSHub可用于统一订阅与抓取扩展:high(成熟开源项目,生态完善)。
- Piper/Coqui TTS + ffmpeg能实现本地TTS与音频处理,适合自动化播客生产:medium(可行但音色/中文效果与部署成本依模型而异)。
- 参考链接中的小宇宙单集内容、以及小宇宙是否支持RSS自动导入/自动分发:low(无法在线核验,需要你以平台创作中心规则为准)。
Next Steps
- 先做“单主题MVP”:选一个你最能持续输出的主题,设定固定栏目(例如“本周3篇论文:一句话结论+为什么重要+你下一步能做什么”)。
- 确定“单一入口Inbox”与最小标签:入口建议只保留一个(RSS星标或GitHub Issue);标签先用3类(项目/领域/证据强度),不要一开始就上百标签。
- 跑通一条样例链路并验收:从抓到一篇论文开始,到生成音频、show notes、RSS、发布完成;把耗时与失败点记录下来再决定要不要全自动。
- 再扩展到“多级分类/知识网络”:当你累计≥30条curated条目后,再引入主题聚类与图谱(否则图谱只是漂亮但空)。
Details (Optional)
Details
TL;DR
- 本报告采用的“信息源”定义:可持续、机器可抓取的渠道(RSS/API/邮件)用于跟踪最新论文与科技动态,并为你的目标服务。
- 最稳的论文信息源组合是:arXiv(预印本)+ Semantic Scholar/OpenAlex(聚合与引用网络)+ PubMed(医疗/生命科学),统一进一个RSS/抓取管道后再做去重与评分。
- 播客自动化的关键不是“把摘要念出来”,而是固定脚本结构(钩子→3点要点→与你目标的关联→行动项)+ 质量闸门(引用/不确定性/免责声明)。
- 1个月MVP建议只做一个主题、一个频率、一个发布渠道:先跑通1期端到端,再扩展多主题与知识网络。
Key Insights
- 信息过载的根因通常是“无目标筛选”:建议先定愿景/季度目标/当前项目,再规定每天进入Inbox的上限与淘汰规则(否则分类树会越建越乱)。
- 论文“最新”不等于“有用”:用“与你项目的相关度 + 新颖性 + 可信度线索(机构/代码/数据/同行评议状态)”做三维评分,比单纯按时间更有效。
- 自动生成内容的风险在于幻觉与过度自信:必须把来源ID(DOI/arXivID/PMID)写进show notes,并在脚本中明确“基于摘要/无法确认全文”的范围。
- 知识网络落地要从“统一主键”开始:每条信息必须绑定一个可重复定位的ID(DOI/arXivID/URL),再谈多级分类、图谱与看板联动。
Playbook
- 主题与查询配置:为每个主题建立关键词/排除词/同义词表(中英),并固定输出形态(例如“每天3篇快报+每周1期深度”),避免无限扩张。
- 抓取与聚合:用FreshRSS/Miniflux做统一入口;论文用arXiv RSS/API + Semantic Scholar/OpenAlex检索;资讯源缺RSS时用RSSHub补齐;统一落到“原始条目表(raw)+处理后条目表(curated)”。
- 去重与筛选:用DOI/arXivID/PMID做硬去重;无ID时用标题相似度去重;设置阈值(例如相关度≥0.7且新颖性≥0.5才进入“可写脚本”队列)。
- 播客生产与发布:LLM输出结构化稿件(标题/3要点/术语解释/与你目标的关联/风险提示/引用);TTS用Piper或Coqui生成音频,ffmpeg做降噪与响度归一;用Castopod/Podcast Generator托管并生成RSS,再按目标平台规则分发(平台是否支持RSS导入需你确认)。
Expert Views
- 开源数据工程师(paraphrase):优先选“有稳定ID与API”的源,流水线要可重跑(幂等)、可追溯(保留raw),否则越自动化越难排错。
- 知识管理/PKM教练(paraphrase):Inbox必须服务项目;每条信息要么进入某个项目的“下一步行动”,要么进“可能有用的资源库”,否则就是心理安慰式收集。
- 播客制作人(paraphrase):听感来自叙事与节奏,不是信息量;固定模板、控制时长、加必要的背景解释,比“堆论文名词”更能留住听众。
- 数据隐私与版权顾问(paraphrase):引用论文标题/摘要/结论要注意许可与合理使用边界;医疗相关要避免诊疗建议式表述,并加“非医疗建议”免责声明。
Options
- 轻量可控(推荐起步):RSS聚合 + 人工挑选 + LLM写稿 + TTS出音频;每天10条上限,确保你能完成闭环而不是堆积。
- 高自动化:n8n/Prefect定时抓取→评分→自动生成并发布;优点省时,缺点需要监控与人工抽检(否则容易“自动生产低质内容”)。
- 研究型知识网络:引入OpenAlex引用网络/作者网络,配Neo4j做图谱与主题漂移检测;适合做“长期研究型自媒体”,但1个月内不建议先上图谱工程。
- 另一种“信息源”定义分支:如果你指的是“社媒情报源(小红书/公众号/社区)”,建议先用RSSHub或邮件转RSS把社媒统一入库,再加“可信度/可复现性”标签,避免社媒带来的噪声主导选题。
Evidence & Confidence
- arXiv、Semantic Scholar、OpenAlex、PubMed、Crossref提供API/文档用于检索与拉取元数据:high(有公开官方文档与长期使用案例)。
- FreshRSS/Miniflux/RSSHub可用于统一订阅与抓取扩展:high(成熟开源项目,生态完善)。
- Piper/Coqui TTS + ffmpeg能实现本地TTS与音频处理,适合自动化播客生产:medium(可行但音色/中文效果与部署成本依模型而异)。
- 参考链接中的小宇宙单集内容、以及小宇宙是否支持RSS自动导入/自动分发:low(无法在线核验,需要你以平台创作中心规则为准)。
Next Steps
- 先做“单主题MVP”:选一个你最能持续输出的主题,设定固定栏目(例如“本周3篇论文:一句话结论+为什么重要+你下一步能做什么”)。
- 确定“单一入口Inbox”与最小标签:入口建议只保留一个(RSS星标或GitHub Issue);标签先用3类(项目/领域/证据强度),不要一开始就上百标签。
- 跑通一条样例链路并验收:从抓到一篇论文开始,到生成音频、show notes、RSS、发布完成;把耗时与失败点记录下来再决定要不要全自动。
- 再扩展到“多级分类/知识网络”:当你累计≥30条curated条目后,再引入主题聚类与图谱(否则图谱只是漂亮但空)。
Sources
- 学术论文检索与元数据:arXiv API https://info.arxiv.org/help/api/index.html ;arXiv RSS(示例)https://arxiv.org/rss/cs.AI ;Semantic Scholar API https://api.semanticscholar.org/api-docs/ ;OpenAlex Docs https://docs.openalex.org/ ;PubMed E-utilities https://www.ncbi.nlm.nih.gov/books/NBK25501/ ;Crossref REST API https://www.crossref.org/documentation/retrieve-metadata/rest-api/
- RSS聚合与扩展:FreshRSS https://github.com/FreshRSS/FreshRSS ;Miniflux https://github.com/miniflux/v2 ;RSSHub https://github.com/DIYgod/RSSHub
- 自动化与LLM编排:n8n https://github.com/n8n-io/n8n ;Prefect https://github.com/PrefectHQ/prefect ;LangChain https://github.com/langchain-ai/langchain ;LlamaIndex https://github.com/run-llama/llama_index
- TTS/音频/播客托管与参考链接:Piper https://github.com/rhasspy/piper ;Coqui TTS https://github.com/coqui-ai/TTS ;ffmpeg https://ffmpeg.org/ ;Castopod https://github.com/ad-aures/castopod ;Podcast Generator https://github.com/PodcastGenerator/PodcastGenerator ;小宇宙参考单集 https://www.xiaoyuzhoufm.com/episode/6983836fc78b823892b211f0 (无法在线核验)
Sources
- 学术论文检索与元数据:arXiv API https://info.arxiv.org/help/api/index.html ;arXiv RSS(示例)https://arxiv.org/rss/cs.AI ;Semantic Scholar API https://api.semanticscholar.org/api-docs/ ;OpenAlex Docs https://docs.openalex.org/ ;PubMed E-utilities https://www.ncbi.nlm.nih.gov/books/NBK25501/ ;Crossref REST API https://www.crossref.org/documentation/retrieve-metadata/rest-api/
- RSS聚合与扩展:FreshRSS https://github.com/FreshRSS/FreshRSS ;Miniflux https://github.com/miniflux/v2 ;RSSHub https://github.com/DIYgod/RSSHub
- 自动化与LLM编排:n8n https://github.com/n8n-io/n8n ;Prefect https://github.com/PrefectHQ/prefect ;LangChain https://github.com/langchain-ai/langchain ;LlamaIndex https://github.com/run-llama/llama_index
- TTS/音频/播客托管与参考链接:Piper https://github.com/rhasspy/piper ;Coqui TTS https://github.com/coqui-ai/TTS ;ffmpeg https://ffmpeg.org/ ;Castopod https://github.com/ad-aures/castopod ;Podcast Generator https://github.com/PodcastGenerator/PodcastGenerator ;小宇宙参考单集 https://www.xiaoyuzhoufm.com/episode/6983836fc78b823892b211f0 (无法在线核验)
Closing Summary
- 结论:搭建论文→摘要→播客的个人情报流水线与信息源清单
- 下一步:把你的“兴趣主题清单(3–5个)+目标(1个月内最重要的产出)+播客期望时长/频率+发布平台”发我,我给你一份可直接照抄的订阅清单、去重规则、脚本模板与自动化工作流图。
One next action
把你的“兴趣主题清单(3–5个)+目标(1个月内最重要的产出)+播客期望时长/频率+发布平台”发我,我给你一份可直接照抄的订阅清单、去重规则、脚本模板与自动化工作流图。