Report

提取并结构化外链“82个 Research Skills”等内容:从短链到可维护 Skills 库

在无法直接在线核验短链内容的前提下,给出可执行的采集、抽取、去重、分类与发布流程(含UI与视频/Remotion类skills)

整理外链“82个research skills”等为结构化skills库

2026-02-02 19:21
skills提取researchAgentskillssh小红书公众号

TL;DR

  • 我将“skills”定义为:可复用的 Agent/研究工作流条目(脚本/Prompt/工具链组合),用于沉淀到 skills 库;若你指职业技能清单,见 Options 分支。
  • 目前仅拿到小红书短链/公众号链接标题,无法在线核验内容,也无法直接还原“82个 research skills”的完整列表。
  • 最短可行路径:你粘贴原文/导出文本 → 我按统一 schema 抽取成 82 条 YAML/JSON/Markdown → 你 review 后合并进仓库。
  • 可同步把 UI 提升与视频制作(含 Remotion)类 skills 纳入同一目录,避免知识碎片化与重复沉淀。

Key Insights

  • 抽取的核心是“标准化 + 可执行性”,而不是单纯罗列标题:每条 skill 需要目标、输入、步骤、工具、产出与验收标准,才能在团队内复用。
  • 小红书内容多为动态渲染且常需登录,自动化抓取的失败率与合规风险较高;优先采用“用户导出/复制”或“截图 OCR”。
  • 多来源合并时要做去重与版本管理:同名 skills 可能只是不同表述,应保留 source_url 与 derived_from,避免丢失上下文。
  • 若这些 skills 计划用于 Agent(如 skills.sh),应为每条 skill 附最小可运行示例与评测用例(输入样例与验收),避免“看起来懂、用不了”。

Playbook

  • 采集:逐个打开链接,复制正文到纯文本;若只能截图,用 OCR(PaddleOCR/Tesseract 等)转文字,并记录 source_url、采集时间、可见作者/发布时间(能获取则填)。
  • 结构化:按 schema 抽取(建议字段:id、name、one_liner、goal、when_to_use、inputs、steps、tools、outputs、quality_check、examples、tags、source_url、license_note)。
  • 归类去重:先按领域切四类 research/agent/ui/video;再用规则(name 规范化、同义词表)+ 语义相似度(embedding)合并重复项,保留别名与来源集合。
  • 发布维护:在 GitHub 仓库中用 data/skills/*.yaml 存储,配套 scripts/validate.py(pydantic 校验)+ CI;对外生成 README 索引与可选的 skills.sh/JSON 汇总,确保持续可维护。

Diagrams

Decision Map ↑ Control / Consistency Speed / Convenience → 1 方案 A(最快):你直接把 8… 2 方案 B(半自动):用 Pla… 3 方案 C(渐进式):先只落地“… 4 另一种“skills”定义分支…
Options · 速度 vs 可控性 的决策图(基于 Options 文本自动定位)
Execution Steps 1 采集 2 结构化 3 归类去重 4 发布维护
Playbook · 执行步骤时间线(基于 Playbook 文本自动提取)

Options

  • 方案 A(最快):你直接把 82 条原文列表粘贴到 issue/文档,我在 1 次迭代内输出结构化 YAML/Markdown,并做基础去重与分类;最省时且风险最低。
  • 方案 B(半自动):用 Playwright 录制登录态后抓取页面 HTML/文本,再用 LLM 抽取;适合量大但需承担反爬、验证码与账号风险,并要先明确合规边界。
  • 方案 C(渐进式):先只落地“Top10 Agent skills + UI 提升方法 + 视频 skills(含 Remotion)”做样板,确定 schema 与目录,再扩到 82 条,减少返工。
  • 另一种“skills”定义分支:若你要的是“研究能力/职业胜任力矩阵”,可改输出为能力模型(能力项、行为指标、练习方法、评估量表)而非可执行工作流。

Expert Views

  • 开源知识库维护者(paraphrase):优先保证可追溯性(每条都能回到来源),宁可先收录 20 条高质量,也不要一次塞进 82 条低一致性条目;维护成本会在后期爆炸。
  • LLM Agent 工程师(paraphrase):skills 需要“接口化”(输入/输出契约、工具调用方式)和“可测试”(prompt/eval),否则无法在 Agent 里可靠复用;建议把关键步骤写成可执行子命令或函数签名。
  • 产品经理(paraphrase):检索与发现比数量更重要;标签体系、示例、Top10 路径与新手指南能显著提升复用率,避免“仓库堆满但没人用”。
  • 数据合规顾问(paraphrase):对平台内容抓取要谨慎,建议以用户自带内容/授权为主,并在库内标注版权与使用范围;必要时仅保留摘要与跳转链接。

Evidence & Confidence

  • “这些链接声称包含 82 个 research skills 并开源”:low;目前只有短链标题与转述,无法在线核验正文与列表。
  • “Remotion 可用于用 React 程序化生成视频、适合作为视频类 skill 的工具链”:high;有官方文档可查且社区使用广泛。
  • “Playwright 适合做登录态浏览器自动化采集”:high;成熟开源项目,文档与生态完整。
  • “小红书自动化采集存在动态渲染/登录/反爬与合规不确定性”:medium;行业普遍情况,但具体到该笔记与账号环境无法核验。

Next Steps

  • 你确认目标产物:只要 82 条清单,还是要做成可执行 skills 库(含 scripts、CI、生成 skills.sh、索引页/搜索)。
  • 你把小红书/公众号内容以“纯文本粘贴”或“截图+允许 OCR”方式提供(至少先给 10 条样例),我先做试抽取与 schema 调整,确保后续批量不返工。
  • 选定仓库落点与目录(例如 data/skills/{research,agent,ui,video}),并决定命名与 id 规则(slug/UUID/递增)以及 tags 词表。
  • 试运行一轮:抽取 10 条 → 你 review → 再批量抽取剩余 72 条,最后生成索引与发布说明(含来源与版权注记)。

Details (Optional)

Details

TL;DR

  • 我将“skills”定义为:可复用的 Agent/研究工作流条目(脚本/Prompt/工具链组合),用于沉淀到 skills 库;若你指职业技能清单,见 Options 分支。
  • 目前仅拿到小红书短链/公众号链接标题,无法在线核验内容,也无法直接还原“82个 research skills”的完整列表。
  • 最短可行路径:你粘贴原文/导出文本 → 我按统一 schema 抽取成 82 条 YAML/JSON/Markdown → 你 review 后合并进仓库。
  • 可同步把 UI 提升与视频制作(含 Remotion)类 skills 纳入同一目录,避免知识碎片化与重复沉淀。

Key Insights

  • 抽取的核心是“标准化 + 可执行性”,而不是单纯罗列标题:每条 skill 需要目标、输入、步骤、工具、产出与验收标准,才能在团队内复用。
  • 小红书内容多为动态渲染且常需登录,自动化抓取的失败率与合规风险较高;优先采用“用户导出/复制”或“截图 OCR”。
  • 多来源合并时要做去重与版本管理:同名 skills 可能只是不同表述,应保留 source_url 与 derived_from,避免丢失上下文。
  • 若这些 skills 计划用于 Agent(如 skills.sh),应为每条 skill 附最小可运行示例与评测用例(输入样例与验收),避免“看起来懂、用不了”。

Playbook

  • 采集:逐个打开链接,复制正文到纯文本;若只能截图,用 OCR(PaddleOCR/Tesseract 等)转文字,并记录 source_url、采集时间、可见作者/发布时间(能获取则填)。
  • 结构化:按 schema 抽取(建议字段:id、name、one_liner、goal、when_to_use、inputs、steps、tools、outputs、quality_check、examples、tags、source_url、license_note)。
  • 归类去重:先按领域切四类 research/agent/ui/video;再用规则(name 规范化、同义词表)+ 语义相似度(embedding)合并重复项,保留别名与来源集合。
  • 发布维护:在 GitHub 仓库中用 data/skills/*.yaml 存储,配套 scripts/validate.py(pydantic 校验)+ CI;对外生成 README 索引与可选的 skills.sh/JSON 汇总,确保持续可维护。

Expert Views

  • 开源知识库维护者(paraphrase):优先保证可追溯性(每条都能回到来源),宁可先收录 20 条高质量,也不要一次塞进 82 条低一致性条目;维护成本会在后期爆炸。
  • LLM Agent 工程师(paraphrase):skills 需要“接口化”(输入/输出契约、工具调用方式)和“可测试”(prompt/eval),否则无法在 Agent 里可靠复用;建议把关键步骤写成可执行子命令或函数签名。
  • 产品经理(paraphrase):检索与发现比数量更重要;标签体系、示例、Top10 路径与新手指南能显著提升复用率,避免“仓库堆满但没人用”。
  • 数据合规顾问(paraphrase):对平台内容抓取要谨慎,建议以用户自带内容/授权为主,并在库内标注版权与使用范围;必要时仅保留摘要与跳转链接。

Options

  • 方案 A(最快):你直接把 82 条原文列表粘贴到 issue/文档,我在 1 次迭代内输出结构化 YAML/Markdown,并做基础去重与分类;最省时且风险最低。
  • 方案 B(半自动):用 Playwright 录制登录态后抓取页面 HTML/文本,再用 LLM 抽取;适合量大但需承担反爬、验证码与账号风险,并要先明确合规边界。
  • 方案 C(渐进式):先只落地“Top10 Agent skills + UI 提升方法 + 视频 skills(含 Remotion)”做样板,确定 schema 与目录,再扩到 82 条,减少返工。
  • 另一种“skills”定义分支:若你要的是“研究能力/职业胜任力矩阵”,可改输出为能力模型(能力项、行为指标、练习方法、评估量表)而非可执行工作流。

Evidence & Confidence

  • “这些链接声称包含 82 个 research skills 并开源”:low;目前只有短链标题与转述,无法在线核验正文与列表。
  • “Remotion 可用于用 React 程序化生成视频、适合作为视频类 skill 的工具链”:high;有官方文档可查且社区使用广泛。
  • “Playwright 适合做登录态浏览器自动化采集”:high;成熟开源项目,文档与生态完整。
  • “小红书自动化采集存在动态渲染/登录/反爬与合规不确定性”:medium;行业普遍情况,但具体到该笔记与账号环境无法核验。

Next Steps

  • 你确认目标产物:只要 82 条清单,还是要做成可执行 skills 库(含 scripts、CI、生成 skills.sh、索引页/搜索)。
  • 你把小红书/公众号内容以“纯文本粘贴”或“截图+允许 OCR”方式提供(至少先给 10 条样例),我先做试抽取与 schema 调整,确保后续批量不返工。
  • 选定仓库落点与目录(例如 data/skills/{research,agent,ui,video}),并决定命名与 id 规则(slug/UUID/递增)以及 tags 词表。
  • 试运行一轮:抽取 10 条 → 你 review → 再批量抽取剩余 72 条,最后生成索引与发布说明(含来源与版权注记)。

Sources

Sources

Closing Summary

  • 结论:整理外链“82个research skills”等为结构化skills库
  • 下一步:请先提供小红书/公众号正文(粘贴或截图);我将按统一schema输出82条结构化skills并可生成索引/脚本

One next action

请先提供小红书/公众号正文(粘贴或截图);我将按统一schema输出82条结构化skills并可生成索引/脚本