Compare
自动化流程:夜间获取AI资讯→整理筛选→生成播客→多渠道分发
2026-01-29 14:36 · Zon · Issue → AI → Report
以“中央收件箱 + 可审阅的分发队列”为核心的分阶段落地方案(含成本/ck统计)
夜间抓取AI资讯→筛选去重→生成播客→多渠道分发方案
TL;DR
- 本报告将“自动化资讯获取流程”定义为:定时从 X(Twitter)/YouTube/GitHub/热榜抓取AI相关条目→入库去重打分→输出到中央收件箱→生成文字稿与播客音频→(半)自动分发到公众号/小宇宙/小红书;“ck”按“每条内容的LLM token/调用额度成本”理解。
- 你已跑通“本地准备素材→写入公众号草稿”,可直接作为分发出口;建议把前置的“抓取/去重/评分/生成”补齐,并把“上传发布”先保留为可开关的半自动步骤。
- 最稳的MVP路径:YouTube(RSS/官方API)+ GitHub(Search API做新高星/高增速)+ 国内热榜(RSSHub等)→每天10:00给你一个可审阅的Top清单+公众号草稿;播客先生成音频与show notes,上传先手动。
- 难点与风险主要在平台合规与稳定性(尤其X/小红书/小宇宙);推荐“官方API→RSS→受控抓取(Playwright)”三级降级,并为失败/封禁/配额做监控与自动回退。
Key Insights
- 把系统拆成两条队列更省钱也更稳:夜间队列只做抓取、入库、轻量初筛;早上队列才做LLM深度总结、生成多格式稿件、进入分发队列(避免半夜长文本与TTS浪费)。
- “我没关注到的热门”需要“广域发现池”+“关注排除”:广域侧用 YouTube mostPopular/搜索趋势、GitHub 新增高星与增速、X趋势/关键词爆发;再用你已关注账号/频道/仓库名单做排除,输出“新颖度”。
- 播客效果取决于“脚本栏目化”而非摘要堆叠:固定结构(开场30秒、3条头条、1个仓库/论文、1个可执行行动、结尾)+ show notes 链接包,才能既好听又可复用到公众号/小红书。
- ck/成本统计建议分层:LLM调用成本用API返回的usage直接记账;抓取/转写/存储的计算成本记运行时指标(耗时、失败率、配额);只有在“必须读网页后台”且无API时才考虑Playwright抓取(并做风控)。
Playbook
- 第0步(配置化):建立
sources.yaml/配置表,包含关键词(含同义词)、排除词、必看账号/频道、输出频率(每日/每周)、播客时长(例如5–8分钟)、以及各渠道模板(公众号长文/短口播/标题风格)。 - 第1步(中央收件箱与数据模型):建议至少有数据库层(SQLite/Postgres)保存原始与加工版本;核心字段:source、url、title、published_at、metrics_json(views/likes/stars等)、raw_text/transcript、tags、score、status、fingerprint(去重)。
- 第2步(采集器优先级):①YouTube:频道RSS或 Data API 拉新视频,字幕用官方字幕/转写(可先只拿描述+字幕);②GitHub:用 Search API 近似“trending”(例:created/pushed 时间窗 + stars阈值 + 计算增速);③国内热榜:RSSHub或自建爬虫;④X:优先官方API v2,抓取仅作兜底并严格限频缓存。
- 第3步(生成与分发):LLM产出三件套(晨报要点、公众号草稿、播客脚本);TTS用 edge-tts 或 Piper 生成mp3,ffmpeg做片头片尾与响度;公众号用 Draft API 写入草稿;小宇宙/小红书如无开放API则输出“上传包”(音频+标题+简介+标签+封面+引用链接)。
Diagrams
Options
- 方案A(低代码最快):n8n 定时 + RSSHub/YouTube RSS/GitHub API → LLM摘要 → 写入Obsidian/Notion → 公众号Draft API;音频用edge-tts;小宇宙/小红书先半自动上传,最快验证“每天10:00审阅+通勤收听”的价值。
- 方案B(可维护/可扩展):Python + Prefect/Airflow 编排,Postgres存储,做一个“审阅面板”(FastAPI/轻前端)支持打分、去重、合并选题、一键生成与分发;适合你后续加更多平台、更多指标与更复杂打分。
- 方案C(全托管验证习惯):Make/Zapier/IFTTT + 现成连接器(能用就用),快速上线但成本更高、可控性更低,且部分平台连接器缺失会逼你走抓取。
- 关于“ck”的分支:若 ck=API token/额度,直接按每次调用的usage落库并按条目归因;若 ck=某网站后台显示的“积分/点数”(无法在线核验其是否有API),可用Playwright登录抓取但需独立只读账号、加密保管cookie/密码、限频与失败降级。
Expert Views
- 自动化/数据工程师(paraphrase):先做“可重跑、可追溯”的管道,所有中间产物落库并打版本;宁可少平台也要先闭环稳定运行两周,再扩展X与多端发布。
- 数据隐私与合规视角(paraphrase):尽量使用OAuth/Token而非保存密码;抓取与转载要控制在“摘要+外链”并保留来源;对X/小红书/小宇宙的自动化登录发布要评估条款与封禁风险。
- 内容运营视角(paraphrase):用户感知价值来自“选题与排序”+“一句话结论+行动项”,不要堆链接;固定栏目与固定输出时间能形成收听/阅读习惯。
- 音频制作视角(paraphrase):TTS可用但必须脚本化、控制语速停顿并加过渡语;show notes 需要可点击链接与章节,才能让播客变成可检索的知识资产。
Evidence & Confidence
- 微信公众号草稿箱/发布相关能力存在官方文档与接口,且你已在当前流程中验证到“写入草稿”可行(confidence: high)。
- YouTube 获取新视频可用 Data API v3 或频道RSS;字幕/转写是否可得取决于视频是否提供字幕或需另做ASR(confidence: high/medium)。
- GitHub 无“Trending”官方API,但用 Search API(时间窗+stars阈值+自算增速)可稳定近似实现“上升很快的仓库”发现(confidence: high)。
- X/Twitter、 小宇宙、 小红书的抓取/自动上传高度依赖开放接口与风控策略;是否有稳定公开API与可用权限不确定(小宇宙/小红书开放API情况无法在线核验)(confidence: medium/low)。
Next Steps
- 明确需求口径并配置化:你关注的AI细分(如Agent/多模态/推理/Infra/开源模型/应用)+不看内容+目标输出长度(文字/播客)+优先渠道顺序(公众号>小宇宙>小红书等)。
- 两周MVP闭环:YouTube(RSS/API)+ GitHub(Search API)→ 入库去重打分 → 生成《每日AI简报》→ 自动写入公众号草稿/中央收件箱;同时把每步耗时、失败率、token/ck按条目归因。
- 加“发现模块”与评分:引入 YouTube mostPopular(按地区/类别)与 GitHub 增速榜,定义 score=热度×相关度×新颖度;并在10:00审阅面板支持“一键加入播客脚本/公众号长文”。
- 最后处理难平台:决定是否为X购买官方API;小宇宙/小红书先走“上传包”与手动上传,确认ROI后再考虑Playwright半自动(可开关、可降级、可追责日志)。
Details (Optional)
Details
TL;DR
- 本报告将“自动化资讯获取流程”定义为:定时从 X(Twitter)/YouTube/GitHub/热榜抓取AI相关条目→入库去重打分→输出到中央收件箱→生成文字稿与播客音频→(半)自动分发到公众号/小宇宙/小红书;“ck”按“每条内容的LLM token/调用额度成本”理解。
- 你已跑通“本地准备素材→写入公众号草稿”,可直接作为分发出口;建议把前置的“抓取/去重/评分/生成”补齐,并把“上传发布”先保留为可开关的半自动步骤。
- 最稳的MVP路径:YouTube(RSS/官方API)+ GitHub(Search API做新高星/高增速)+ 国内热榜(RSSHub等)→每天10:00给你一个可审阅的Top清单+公众号草稿;播客先生成音频与show notes,上传先手动。
- 难点与风险主要在平台合规与稳定性(尤其X/小红书/小宇宙);推荐“官方API→RSS→受控抓取(Playwright)”三级降级,并为失败/封禁/配额做监控与自动回退。
Key Insights
- 把系统拆成两条队列更省钱也更稳:夜间队列只做抓取、入库、轻量初筛;早上队列才做LLM深度总结、生成多格式稿件、进入分发队列(避免半夜长文本与TTS浪费)。
- “我没关注到的热门”需要“广域发现池”+“关注排除”:广域侧用 YouTube mostPopular/搜索趋势、GitHub 新增高星与增速、X趋势/关键词爆发;再用你已关注账号/频道/仓库名单做排除,输出“新颖度”。
- 播客效果取决于“脚本栏目化”而非摘要堆叠:固定结构(开场30秒、3条头条、1个仓库/论文、1个可执行行动、结尾)+ show notes 链接包,才能既好听又可复用到公众号/小红书。
- ck/成本统计建议分层:LLM调用成本用API返回的usage直接记账;抓取/转写/存储的计算成本记运行时指标(耗时、失败率、配额);只有在“必须读网页后台”且无API时才考虑Playwright抓取(并做风控)。
Playbook
- 第0步(配置化):建立
sources.yaml/配置表,包含关键词(含同义词)、排除词、必看账号/频道、输出频率(每日/每周)、播客时长(例如5–8分钟)、以及各渠道模板(公众号长文/短口播/标题风格)。 - 第1步(中央收件箱与数据模型):建议至少有数据库层(SQLite/Postgres)保存原始与加工版本;核心字段:source、url、title、published_at、metrics_json(views/likes/stars等)、raw_text/transcript、tags、score、status、fingerprint(去重)。
- 第2步(采集器优先级):①YouTube:频道RSS或 Data API 拉新视频,字幕用官方字幕/转写(可先只拿描述+字幕);②GitHub:用 Search API 近似“trending”(例:created/pushed 时间窗 + stars阈值 + 计算增速);③国内热榜:RSSHub或自建爬虫;④X:优先官方API v2,抓取仅作兜底并严格限频缓存。
- 第3步(生成与分发):LLM产出三件套(晨报要点、公众号草稿、播客脚本);TTS用 edge-tts 或 Piper 生成mp3,ffmpeg做片头片尾与响度;公众号用 Draft API 写入草稿;小宇宙/小红书如无开放API则输出“上传包”(音频+标题+简介+标签+封面+引用链接)。
Expert Views
- 自动化/数据工程师(paraphrase):先做“可重跑、可追溯”的管道,所有中间产物落库并打版本;宁可少平台也要先闭环稳定运行两周,再扩展X与多端发布。
- 数据隐私与合规视角(paraphrase):尽量使用OAuth/Token而非保存密码;抓取与转载要控制在“摘要+外链”并保留来源;对X/小红书/小宇宙的自动化登录发布要评估条款与封禁风险。
- 内容运营视角(paraphrase):用户感知价值来自“选题与排序”+“一句话结论+行动项”,不要堆链接;固定栏目与固定输出时间能形成收听/阅读习惯。
- 音频制作视角(paraphrase):TTS可用但必须脚本化、控制语速停顿并加过渡语;show notes 需要可点击链接与章节,才能让播客变成可检索的知识资产。
Options
- 方案A(低代码最快):n8n 定时 + RSSHub/YouTube RSS/GitHub API → LLM摘要 → 写入Obsidian/Notion → 公众号Draft API;音频用edge-tts;小宇宙/小红书先半自动上传,最快验证“每天10:00审阅+通勤收听”的价值。
- 方案B(可维护/可扩展):Python + Prefect/Airflow 编排,Postgres存储,做一个“审阅面板”(FastAPI/轻前端)支持打分、去重、合并选题、一键生成与分发;适合你后续加更多平台、更多指标与更复杂打分。
- 方案C(全托管验证习惯):Make/Zapier/IFTTT + 现成连接器(能用就用),快速上线但成本更高、可控性更低,且部分平台连接器缺失会逼你走抓取。
- 关于“ck”的分支:若 ck=API token/额度,直接按每次调用的usage落库并按条目归因;若 ck=某网站后台显示的“积分/点数”(无法在线核验其是否有API),可用Playwright登录抓取但需独立只读账号、加密保管cookie/密码、限频与失败降级。
Evidence & Confidence
- 微信公众号草稿箱/发布相关能力存在官方文档与接口,且你已在当前流程中验证到“写入草稿”可行(confidence: high)。
- YouTube 获取新视频可用 Data API v3 或频道RSS;字幕/转写是否可得取决于视频是否提供字幕或需另做ASR(confidence: high/medium)。
- GitHub 无“Trending”官方API,但用 Search API(时间窗+stars阈值+自算增速)可稳定近似实现“上升很快的仓库”发现(confidence: high)。
- X/Twitter、 小宇宙、 小红书的抓取/自动上传高度依赖开放接口与风控策略;是否有稳定公开API与可用权限不确定(小宇宙/小红书开放API情况无法在线核验)(confidence: medium/low)。
Next Steps
- 明确需求口径并配置化:你关注的AI细分(如Agent/多模态/推理/Infra/开源模型/应用)+不看内容+目标输出长度(文字/播客)+优先渠道顺序(公众号>小宇宙>小红书等)。
- 两周MVP闭环:YouTube(RSS/API)+ GitHub(Search API)→ 入库去重打分 → 生成《每日AI简报》→ 自动写入公众号草稿/中央收件箱;同时把每步耗时、失败率、token/ck按条目归因。
- 加“发现模块”与评分:引入 YouTube mostPopular(按地区/类别)与 GitHub 增速榜,定义 score=热度×相关度×新颖度;并在10:00审阅面板支持“一键加入播客脚本/公众号长文”。
- 最后处理难平台:决定是否为X购买官方API;小宇宙/小红书先走“上传包”与手动上传,确认ROI后再考虑Playwright半自动(可开关、可降级、可追责日志)。
Sources
- 微信公众号开放平台概览与接口文档:https://developers.weixin.qq.com/doc/offiaccount/Getting_Started/Overview.html ;草稿箱 AddDraft:https://developers.weixin.qq.com/doc/offiaccount/Draft_Box/Add_draft.html
- YouTube Data API v3:https://developers.google.com/youtube/v3 ;频道视频RSS示例(可直接访问):https://www.youtube.com/feeds/videos.xml?channel_id=CHANNEL_ID
- GitHub REST API Search:https://docs.github.com/en/rest/search ;GitHub GraphQL API:https://docs.github.com/en/graphql
- 工作流/抓取/解析与TTS:n8n https://github.com/n8n-io/n8n ;RSSHub https://github.com/DIYgod/RSSHub ;Playwright https://playwright.dev/ ;edge-tts https://github.com/rany2/edge-tts ;Piper https://github.com/rhasspy/piper ;trafilatura https://github.com/adbar/trafilatura ;yt-dlp https://github.com/yt-dlp/yt-dlp ;youtube-transcript-api https://github.com/jdepoix/youtube-transcript-api
Sources
- 微信公众号开放平台概览与接口文档:https://developers.weixin.qq.com/doc/offiaccount/Getting_Started/Overview.html ;草稿箱 AddDraft:https://developers.weixin.qq.com/doc/offiaccount/Draft_Box/Add_draft.html
- YouTube Data API v3:https://developers.google.com/youtube/v3 ;频道视频RSS示例(可直接访问):https://www.youtube.com/feeds/videos.xml?channel_id=CHANNEL_ID
- GitHub REST API Search:https://docs.github.com/en/rest/search ;GitHub GraphQL API:https://docs.github.com/en/graphql
- 工作流/抓取/解析与TTS:n8n https://github.com/n8n-io/n8n ;RSSHub https://github.com/DIYgod/RSSHub ;Playwright https://playwright.dev/ ;edge-tts https://github.com/rany2/edge-tts ;Piper https://github.com/rhasspy/piper ;trafilatura https://github.com/adbar/trafilatura ;yt-dlp https://github.com/yt-dlp/yt-dlp ;youtube-transcript-api https://github.com/jdepoix/youtube-transcript-api
Closing Summary
- 结论:夜间抓取AI资讯→筛选去重→生成播客→多渠道分发方案
- 下一步:把“关注方向关键词+必看频道/账号+期望播客时长+优先发布渠道(公众号/小宇宙/小红书等)”发我,我将按你的偏好给出MVP数据结构、打分公式、以及n8n/Prefect的具体流程节点与配置清单。
One next action
把“关注方向关键词+必看频道/账号+期望播客时长+优先发布渠道(公众号/小宇宙/小红书等)”发我,我将按你的偏好给出MVP数据结构、打分公式、以及n8n/Prefect的具体流程节点与配置清单。
先闭环,再上强度。
— AI pipeline