Report

从 Vercel 24h Skills 热榜/小红书/公众号提取“Agent Skills”清单:可执行抽取与归档方案

受限于无法在线打开短链与动态页面,本报告提供可落地的抽取流程、字段模板与工具选型(并标注无法在线核验的来源)。

提取 Vercel/XHS/公众号 Agent Skills 的清单与抽取流程

2026-02-02 20:37
agent-skillsvercelskillssh小红书公众号remotion

TL;DR

  • 本报告采用的“Skill”定义:面向 Agent/LLM 的可复用能力模块(技能卡片),通常包含用途、触发条件/提示词、输入输出、依赖工具与示例(另一种“职业技能”定义见 Options)。
  • 你给的来源包含 Vercel/skills.sh 热榜、小红书短链、公众号文章;我当前无法在线核验这些链接内容,因此不直接臆测 Top10/82 个技能条目名称,只给出可复现的提取与落库步骤。
  • 最快落地路径:先用手动复制/导出 HTML 获得原文,再用脚本做“结构化抽取→去重→分类→生成 skills.json/Obsidian 条目”。

Key Insights

  • 小红书短链通常指向动态内容且有反爬/登录限制:自动化抓取成功率不稳定,优先采用“人工打开-复制正文/导出网页-本地解析”的半自动流程。
  • 公众号文章可通过“保存网页为 HTML / 复制纯文本”稳定获取;真正困难在于把文内的“技能点”从叙事里切分成标准化条目。
  • Vercel/skills.sh 这类排行榜通常会在前端请求一个 JSON(或 GraphQL)来渲染列表:抓到接口后可稳定全量拉取并定时更新(24h 热度)。
  • 你特别提到 remotion:更像“视频生成/程序化视频渲染”类技能的实现依赖(工具型 Skill),适合在技能卡里明确 Node 版本、渲染命令、模板参数等可运行要素。

Playbook

  • 第 1 步:统一字段模板(建议最小可用)= name、category、one_liner、when_to_use、inputs、outputs、prompt_or_steps、tools/runtime、examples、source_url、captured_at。
  • 第 2 步:采集原始材料:小红书/公众号优先手工复制到 docs/raw/{source}/{date}.md;Vercel/skills.sh 用 DevTools Network 抓 API 响应保存为 JSON。
  • 第 3 步:结构化抽取:对文本用“分段→枚举→正则/LLM 辅助标注”把每个技能切分成独立条目;对 JSON 直接映射字段并保留原始热度/排名字段。
  • 第 4 步:质量控制:做去重(名称归一化、描述相似度阈值)、补全(缺用途/输入输出则回看原文)、分类(Research/Video/UI/DevOps 等),最后生成目标格式(skills.json 或每条一个 Markdown)。

Diagrams

Decision Map ↑ Control / Consistency Speed / Convenience → 1 方案 A(本报告默认):Ski… 2 方案 B(另一种定义):Ski… 3 采集方式分支:半自动(人工复制… 4 落库方式分支:单一 skill…
Options · 速度 vs 可控性 的决策图(基于 Options 文本自动定位)
Execution Steps 1 第 1 步 2 第 2 步 3 第 3 步 4 第 4 步
Playbook · 执行步骤时间线(基于 Playbook 文本自动提取)

Options

  • 方案 A(本报告默认):Skill=Agent/LLM 技能卡片。输出为“可执行的技能库”,每条带步骤/提示词/工具依赖,适合沉淀到 GitHub/Obsidian 并复用在工作流里。
  • 方案 B(另一种定义):Skill=泛职业技能/能力点清单。输出为“技能树/学习路线”,字段更偏向定义、学习资源、练习项目与评估方式(不强调提示词与工具调用)。
  • 采集方式分支:半自动(人工复制+本地解析)最快;全自动(Playwright+接口抓取)适合要做“24h 热榜”定时更新,但成本与失败率更高。
  • 落库方式分支:单一 skills.json 便于检索/生成;“每条一个 Markdown+frontmatter”便于 Obsidian/PR 协作;两者可通过脚本互转。

Expert Views

  • 开源数据工程师(paraphrase):优先抓到 skills.sh 的真实接口并保留原始字段,后续做增量同步与变更追踪(diff),比“截图/OCR”可靠得多。
  • 反爬/浏览器自动化工程师(paraphrase):小红书不建议硬刚 API;用 Playwright 做“可视化登录+页面导出”,或直接人工复制,确保可持续与合规风险更低。
  • 内容产品经理(paraphrase):技能库可用性的关键不是条目数量,而是每条 skill 是否“可触发、可复现、可评估”;需要最少一个可运行示例与验收标准。
  • 隐私与合规从业者(paraphrase):抽取时要保留来源链接与作者信息(如可见),避免二次分发敏感信息;对平台内容抓取要评估服务条款与使用边界。

Evidence & Confidence

  • “小红书内容自动化抓取不稳定、通常需要登录/动态渲染”:medium;基于平台常见反爬形态与短链跳转特征,但未在线核验你给的具体笔记页面。
  • “Vercel/skills.sh 热榜可能存在可抓取的 JSON 接口”:medium;常见前端榜单实现如此,但需你本地抓 Network 证实具体 endpoint。
  • “remotion 可用于程序化视频生成,适合作为视频类 skill 的工具依赖”:high;Remotion 是公开的开源项目与产品定位明确。
  • “先采集原文再结构化抽取能显著降低返工”:high;这是内容到知识库/数据集的通用工程实践,且适用于你当前多来源混合输入。

Next Steps

  • 你本地执行一次:打开每个链接,导出为“纯文本或 HTML”,把文件丢到一个目录(例如 raw/2026-02-02/),并把目录结构回传给我(或粘贴其中一篇的正文)。
  • 我根据你选定的输出格式生成:字段 schema、分类枚举、去重规则,以及 Playwright 抓取/导出脚本骨架(含如何抓 skills.sh 的接口)。
  • 先做一个 MVP:只抽取你提到的 3 类(Research skills、Video skills、UI 提升技巧)各 10 条,跑通“抽取→落库→检索”闭环。
  • 再扩展:把 Vercel 24h 热榜做成定时任务(GitHub Actions/cron),每日自动更新并生成变更摘要(新增/上升/下降)。

Details (Optional)

Details

TL;DR

  • 本报告采用的“Skill”定义:面向 Agent/LLM 的可复用能力模块(技能卡片),通常包含用途、触发条件/提示词、输入输出、依赖工具与示例(另一种“职业技能”定义见 Options)。
  • 你给的来源包含 Vercel/skills.sh 热榜、小红书短链、公众号文章;我当前无法在线核验这些链接内容,因此不直接臆测 Top10/82 个技能条目名称,只给出可复现的提取与落库步骤。
  • 最快落地路径:先用手动复制/导出 HTML 获得原文,再用脚本做“结构化抽取→去重→分类→生成 skills.json/Obsidian 条目”。

Key Insights

  • 小红书短链通常指向动态内容且有反爬/登录限制:自动化抓取成功率不稳定,优先采用“人工打开-复制正文/导出网页-本地解析”的半自动流程。
  • 公众号文章可通过“保存网页为 HTML / 复制纯文本”稳定获取;真正困难在于把文内的“技能点”从叙事里切分成标准化条目。
  • Vercel/skills.sh 这类排行榜通常会在前端请求一个 JSON(或 GraphQL)来渲染列表:抓到接口后可稳定全量拉取并定时更新(24h 热度)。
  • 你特别提到 remotion:更像“视频生成/程序化视频渲染”类技能的实现依赖(工具型 Skill),适合在技能卡里明确 Node 版本、渲染命令、模板参数等可运行要素。

Playbook

  • 第 1 步:统一字段模板(建议最小可用)= name、category、one_liner、when_to_use、inputs、outputs、prompt_or_steps、tools/runtime、examples、source_url、captured_at。
  • 第 2 步:采集原始材料:小红书/公众号优先手工复制到 docs/raw/{source}/{date}.md;Vercel/skills.sh 用 DevTools Network 抓 API 响应保存为 JSON。
  • 第 3 步:结构化抽取:对文本用“分段→枚举→正则/LLM 辅助标注”把每个技能切分成独立条目;对 JSON 直接映射字段并保留原始热度/排名字段。
  • 第 4 步:质量控制:做去重(名称归一化、描述相似度阈值)、补全(缺用途/输入输出则回看原文)、分类(Research/Video/UI/DevOps 等),最后生成目标格式(skills.json 或每条一个 Markdown)。

Expert Views

  • 开源数据工程师(paraphrase):优先抓到 skills.sh 的真实接口并保留原始字段,后续做增量同步与变更追踪(diff),比“截图/OCR”可靠得多。
  • 反爬/浏览器自动化工程师(paraphrase):小红书不建议硬刚 API;用 Playwright 做“可视化登录+页面导出”,或直接人工复制,确保可持续与合规风险更低。
  • 内容产品经理(paraphrase):技能库可用性的关键不是条目数量,而是每条 skill 是否“可触发、可复现、可评估”;需要最少一个可运行示例与验收标准。
  • 隐私与合规从业者(paraphrase):抽取时要保留来源链接与作者信息(如可见),避免二次分发敏感信息;对平台内容抓取要评估服务条款与使用边界。

Options

  • 方案 A(本报告默认):Skill=Agent/LLM 技能卡片。输出为“可执行的技能库”,每条带步骤/提示词/工具依赖,适合沉淀到 GitHub/Obsidian 并复用在工作流里。
  • 方案 B(另一种定义):Skill=泛职业技能/能力点清单。输出为“技能树/学习路线”,字段更偏向定义、学习资源、练习项目与评估方式(不强调提示词与工具调用)。
  • 采集方式分支:半自动(人工复制+本地解析)最快;全自动(Playwright+接口抓取)适合要做“24h 热榜”定时更新,但成本与失败率更高。
  • 落库方式分支:单一 skills.json 便于检索/生成;“每条一个 Markdown+frontmatter”便于 Obsidian/PR 协作;两者可通过脚本互转。

Evidence & Confidence

  • “小红书内容自动化抓取不稳定、通常需要登录/动态渲染”:medium;基于平台常见反爬形态与短链跳转特征,但未在线核验你给的具体笔记页面。
  • “Vercel/skills.sh 热榜可能存在可抓取的 JSON 接口”:medium;常见前端榜单实现如此,但需你本地抓 Network 证实具体 endpoint。
  • “remotion 可用于程序化视频生成,适合作为视频类 skill 的工具依赖”:high;Remotion 是公开的开源项目与产品定位明确。
  • “先采集原文再结构化抽取能显著降低返工”:high;这是内容到知识库/数据集的通用工程实践,且适用于你当前多来源混合输入。

Next Steps

  • 你本地执行一次:打开每个链接,导出为“纯文本或 HTML”,把文件丢到一个目录(例如 raw/2026-02-02/),并把目录结构回传给我(或粘贴其中一篇的正文)。
  • 我根据你选定的输出格式生成:字段 schema、分类枚举、去重规则,以及 Playwright 抓取/导出脚本骨架(含如何抓 skills.sh 的接口)。
  • 先做一个 MVP:只抽取你提到的 3 类(Research skills、Video skills、UI 提升技巧)各 10 条,跑通“抽取→落库→检索”闭环。
  • 再扩展:把 Vercel 24h 热榜做成定时任务(GitHub Actions/cron),每日自动更新并生成变更摘要(新增/上升/下降)。

Sources

Sources

Closing Summary

  • 结论:提取 Vercel/XHS/公众号 Agent Skills 的清单与抽取流程
  • 下一步:你先给出期望的最终输出格式(例如 skills.json/Obsidian 单文件一条/CSV)和是否要自动化抓取;我再按格式生成字段模板与可直接跑的抽取脚本骨架(Playwright)。

One next action

你先给出期望的最终输出格式(例如 skills.json/Obsidian 单文件一条/CSV)和是否要自动化抓取;我再按格式生成字段模板与可直接跑的抽取脚本骨架(Playwright)。