从 Vercel 24h Skills 热榜/小红书/公众号提取“Agent Skills”清单:可执行抽取与归档方案
受限于无法在线打开短链与动态页面,本报告提供可落地的抽取流程、字段模板与工具选型(并标注无法在线核验的来源)。
提取 Vercel/XHS/公众号 Agent Skills 的清单与抽取流程
agent-skillsvercelskillssh小红书公众号remotion
TL;DR
- 本报告采用的“Skill”定义:面向 Agent/LLM 的可复用能力模块(技能卡片),通常包含用途、触发条件/提示词、输入输出、依赖工具与示例(另一种“职业技能”定义见 Options)。
- 你给的来源包含 Vercel/skills.sh 热榜、小红书短链、公众号文章;我当前无法在线核验这些链接内容,因此不直接臆测 Top10/82 个技能条目名称,只给出可复现的提取与落库步骤。
- 最快落地路径:先用手动复制/导出 HTML 获得原文,再用脚本做“结构化抽取→去重→分类→生成 skills.json/Obsidian 条目”。
Key Insights
- 小红书短链通常指向动态内容且有反爬/登录限制:自动化抓取成功率不稳定,优先采用“人工打开-复制正文/导出网页-本地解析”的半自动流程。
- 公众号文章可通过“保存网页为 HTML / 复制纯文本”稳定获取;真正困难在于把文内的“技能点”从叙事里切分成标准化条目。
- Vercel/skills.sh 这类排行榜通常会在前端请求一个 JSON(或 GraphQL)来渲染列表:抓到接口后可稳定全量拉取并定时更新(24h 热度)。
- 你特别提到 remotion:更像“视频生成/程序化视频渲染”类技能的实现依赖(工具型 Skill),适合在技能卡里明确 Node 版本、渲染命令、模板参数等可运行要素。
Playbook
- 第 1 步:统一字段模板(建议最小可用)= name、category、one_liner、when_to_use、inputs、outputs、prompt_or_steps、tools/runtime、examples、source_url、captured_at。
- 第 2 步:采集原始材料:小红书/公众号优先手工复制到 docs/raw/{source}/{date}.md;Vercel/skills.sh 用 DevTools Network 抓 API 响应保存为 JSON。
- 第 3 步:结构化抽取:对文本用“分段→枚举→正则/LLM 辅助标注”把每个技能切分成独立条目;对 JSON 直接映射字段并保留原始热度/排名字段。
- 第 4 步:质量控制:做去重(名称归一化、描述相似度阈值)、补全(缺用途/输入输出则回看原文)、分类(Research/Video/UI/DevOps 等),最后生成目标格式(skills.json 或每条一个 Markdown)。
Diagrams
Options
- 方案 A(本报告默认):Skill=Agent/LLM 技能卡片。输出为“可执行的技能库”,每条带步骤/提示词/工具依赖,适合沉淀到 GitHub/Obsidian 并复用在工作流里。
- 方案 B(另一种定义):Skill=泛职业技能/能力点清单。输出为“技能树/学习路线”,字段更偏向定义、学习资源、练习项目与评估方式(不强调提示词与工具调用)。
- 采集方式分支:半自动(人工复制+本地解析)最快;全自动(Playwright+接口抓取)适合要做“24h 热榜”定时更新,但成本与失败率更高。
- 落库方式分支:单一 skills.json 便于检索/生成;“每条一个 Markdown+frontmatter”便于 Obsidian/PR 协作;两者可通过脚本互转。
Expert Views
- 开源数据工程师(paraphrase):优先抓到 skills.sh 的真实接口并保留原始字段,后续做增量同步与变更追踪(diff),比“截图/OCR”可靠得多。
- 反爬/浏览器自动化工程师(paraphrase):小红书不建议硬刚 API;用 Playwright 做“可视化登录+页面导出”,或直接人工复制,确保可持续与合规风险更低。
- 内容产品经理(paraphrase):技能库可用性的关键不是条目数量,而是每条 skill 是否“可触发、可复现、可评估”;需要最少一个可运行示例与验收标准。
- 隐私与合规从业者(paraphrase):抽取时要保留来源链接与作者信息(如可见),避免二次分发敏感信息;对平台内容抓取要评估服务条款与使用边界。
Evidence & Confidence
- “小红书内容自动化抓取不稳定、通常需要登录/动态渲染”:medium;基于平台常见反爬形态与短链跳转特征,但未在线核验你给的具体笔记页面。
- “Vercel/skills.sh 热榜可能存在可抓取的 JSON 接口”:medium;常见前端榜单实现如此,但需你本地抓 Network 证实具体 endpoint。
- “remotion 可用于程序化视频生成,适合作为视频类 skill 的工具依赖”:high;Remotion 是公开的开源项目与产品定位明确。
- “先采集原文再结构化抽取能显著降低返工”:high;这是内容到知识库/数据集的通用工程实践,且适用于你当前多来源混合输入。
Next Steps
- 你本地执行一次:打开每个链接,导出为“纯文本或 HTML”,把文件丢到一个目录(例如 raw/2026-02-02/),并把目录结构回传给我(或粘贴其中一篇的正文)。
- 我根据你选定的输出格式生成:字段 schema、分类枚举、去重规则,以及 Playwright 抓取/导出脚本骨架(含如何抓 skills.sh 的接口)。
- 先做一个 MVP:只抽取你提到的 3 类(Research skills、Video skills、UI 提升技巧)各 10 条,跑通“抽取→落库→检索”闭环。
- 再扩展:把 Vercel 24h 热榜做成定时任务(GitHub Actions/cron),每日自动更新并生成变更摘要(新增/上升/下降)。
Details (Optional)
Details
TL;DR
- 本报告采用的“Skill”定义:面向 Agent/LLM 的可复用能力模块(技能卡片),通常包含用途、触发条件/提示词、输入输出、依赖工具与示例(另一种“职业技能”定义见 Options)。
- 你给的来源包含 Vercel/skills.sh 热榜、小红书短链、公众号文章;我当前无法在线核验这些链接内容,因此不直接臆测 Top10/82 个技能条目名称,只给出可复现的提取与落库步骤。
- 最快落地路径:先用手动复制/导出 HTML 获得原文,再用脚本做“结构化抽取→去重→分类→生成 skills.json/Obsidian 条目”。
Key Insights
- 小红书短链通常指向动态内容且有反爬/登录限制:自动化抓取成功率不稳定,优先采用“人工打开-复制正文/导出网页-本地解析”的半自动流程。
- 公众号文章可通过“保存网页为 HTML / 复制纯文本”稳定获取;真正困难在于把文内的“技能点”从叙事里切分成标准化条目。
- Vercel/skills.sh 这类排行榜通常会在前端请求一个 JSON(或 GraphQL)来渲染列表:抓到接口后可稳定全量拉取并定时更新(24h 热度)。
- 你特别提到 remotion:更像“视频生成/程序化视频渲染”类技能的实现依赖(工具型 Skill),适合在技能卡里明确 Node 版本、渲染命令、模板参数等可运行要素。
Playbook
- 第 1 步:统一字段模板(建议最小可用)= name、category、one_liner、when_to_use、inputs、outputs、prompt_or_steps、tools/runtime、examples、source_url、captured_at。
- 第 2 步:采集原始材料:小红书/公众号优先手工复制到 docs/raw/{source}/{date}.md;Vercel/skills.sh 用 DevTools Network 抓 API 响应保存为 JSON。
- 第 3 步:结构化抽取:对文本用“分段→枚举→正则/LLM 辅助标注”把每个技能切分成独立条目;对 JSON 直接映射字段并保留原始热度/排名字段。
- 第 4 步:质量控制:做去重(名称归一化、描述相似度阈值)、补全(缺用途/输入输出则回看原文)、分类(Research/Video/UI/DevOps 等),最后生成目标格式(skills.json 或每条一个 Markdown)。
Expert Views
- 开源数据工程师(paraphrase):优先抓到 skills.sh 的真实接口并保留原始字段,后续做增量同步与变更追踪(diff),比“截图/OCR”可靠得多。
- 反爬/浏览器自动化工程师(paraphrase):小红书不建议硬刚 API;用 Playwright 做“可视化登录+页面导出”,或直接人工复制,确保可持续与合规风险更低。
- 内容产品经理(paraphrase):技能库可用性的关键不是条目数量,而是每条 skill 是否“可触发、可复现、可评估”;需要最少一个可运行示例与验收标准。
- 隐私与合规从业者(paraphrase):抽取时要保留来源链接与作者信息(如可见),避免二次分发敏感信息;对平台内容抓取要评估服务条款与使用边界。
Options
- 方案 A(本报告默认):Skill=Agent/LLM 技能卡片。输出为“可执行的技能库”,每条带步骤/提示词/工具依赖,适合沉淀到 GitHub/Obsidian 并复用在工作流里。
- 方案 B(另一种定义):Skill=泛职业技能/能力点清单。输出为“技能树/学习路线”,字段更偏向定义、学习资源、练习项目与评估方式(不强调提示词与工具调用)。
- 采集方式分支:半自动(人工复制+本地解析)最快;全自动(Playwright+接口抓取)适合要做“24h 热榜”定时更新,但成本与失败率更高。
- 落库方式分支:单一 skills.json 便于检索/生成;“每条一个 Markdown+frontmatter”便于 Obsidian/PR 协作;两者可通过脚本互转。
Evidence & Confidence
- “小红书内容自动化抓取不稳定、通常需要登录/动态渲染”:medium;基于平台常见反爬形态与短链跳转特征,但未在线核验你给的具体笔记页面。
- “Vercel/skills.sh 热榜可能存在可抓取的 JSON 接口”:medium;常见前端榜单实现如此,但需你本地抓 Network 证实具体 endpoint。
- “remotion 可用于程序化视频生成,适合作为视频类 skill 的工具依赖”:high;Remotion 是公开的开源项目与产品定位明确。
- “先采集原文再结构化抽取能显著降低返工”:high;这是内容到知识库/数据集的通用工程实践,且适用于你当前多来源混合输入。
Next Steps
- 你本地执行一次:打开每个链接,导出为“纯文本或 HTML”,把文件丢到一个目录(例如 raw/2026-02-02/),并把目录结构回传给我(或粘贴其中一篇的正文)。
- 我根据你选定的输出格式生成:字段 schema、分类枚举、去重规则,以及 Playwright 抓取/导出脚本骨架(含如何抓 skills.sh 的接口)。
- 先做一个 MVP:只抽取你提到的 3 类(Research skills、Video skills、UI 提升技巧)各 10 条,跑通“抽取→落库→检索”闭环。
- 再扩展:把 Vercel 24h 热榜做成定时任务(GitHub Actions/cron),每日自动更新并生成变更摘要(新增/上升/下降)。
Sources
- GitHub Issue(你的原始需求汇总):https://github.com/EOMZON/myObsidian/issues/27
- 小红书短链(无法在线核验内容):http://xhslink.com/o/1bSQK9DyyvL ;http://xhslink.com/o/1h825TiRrlM ;http://xhslink.com/o/8Iwv6w7efiK ;http://xhslink.com/o/4UnqYz2I6ZR ;http://xhslink.com/o/AFf6RlJ0bGC
- 公众号文章(无法在线核验内容):https://mp.weixin.qq.com/s/oNSzDbPF0Hb-zy5u21eLmw
- Remotion(视频生成工具):https://www.remotion.dev/ ;https://github.com/remotion-dev/remotion
Sources
- GitHub Issue(你的原始需求汇总):https://github.com/EOMZON/myObsidian/issues/27
- 小红书短链(无法在线核验内容):http://xhslink.com/o/1bSQK9DyyvL ;http://xhslink.com/o/1h825TiRrlM ;http://xhslink.com/o/8Iwv6w7efiK ;http://xhslink.com/o/4UnqYz2I6ZR ;http://xhslink.com/o/AFf6RlJ0bGC
- 公众号文章(无法在线核验内容):https://mp.weixin.qq.com/s/oNSzDbPF0Hb-zy5u21eLmw
- Remotion(视频生成工具):https://www.remotion.dev/ ;https://github.com/remotion-dev/remotion
Closing Summary
- 结论:提取 Vercel/XHS/公众号 Agent Skills 的清单与抽取流程
- 下一步:你先给出期望的最终输出格式(例如 skills.json/Obsidian 单文件一条/CSV)和是否要自动化抓取;我再按格式生成字段模板与可直接跑的抽取脚本骨架(Playwright)。
One next action
你先给出期望的最终输出格式(例如 skills.json/Obsidian 单文件一条/CSV)和是否要自动化抓取;我再按格式生成字段模板与可直接跑的抽取脚本骨架(Playwright)。