用 agent-skills(技能化 Agent)辅助论文写作:从 Prompt 到可复用工作流
2026-02-01 10:28 · Zon · Issue → AI → Report
将“检索-阅读-笔记-大纲-写作-引用-校验”模块化,降低幻觉与返工成本
用“技能化Agent”搭建论文写作工作流与工具栈
TL;DR
- 本文将“agent-skills”定义为:把论文写作拆成可复用的“技能/工具函数”(检索、摘要、引用插入、LaTeX 编译等),由 LLM Agent 规划并按需调用;不是单次 Prompt。(若你指的是某个同名仓库,需补充链接核对其 API)
- 论文写作最容易踩坑的环节不是“写不出来”,而是“引用不可靠、论证链不闭合、结构反复推倒重来”;技能化的核心价值是让每一步都有产物与可回溯证据。
- 推荐最小可行流程:Zotero 管引用与元数据 + 本地/云端 RAG 管阅读材料 + 写作模板(LaTeX/Word)+ 两个校验技能(事实核验/引用核验)。
- 目标不是让 Agent 替你写论文,而是让它像“研究助理”一样做检索、整理、对齐格式、检查一致性;关键结论与论证仍由作者负责。
Key Insights
- 把写作拆成技能后,Prompt 只负责“调度与标准”,执行由工具完成:检索走 API、解析走解析器、引用走 Zotero/BibTeX、格式走模板与编译器。
- 学术写作的“可靠性”主要来自可追溯链:每个段落绑定来源(DOI/页码/摘录),让 Agent 只能在证据库内生成,并输出引用依据(chunk id/页码)。
- 读写分离:先构建“可检索的阅读库”(PDF→结构化文本→向量库/全文索引),再做问答/综述/相关工作;避免边搜边写导致主题漂移。
- 评价要可量化:例如“每 200–300 字至少 1 条可点击引用”“引用中 DOI 命中率”“与提纲一致性(章节覆盖率)”“重复率/自相矛盾检测”。
Playbook
- 明确约束与输出物:论文类型(综述/实证/方法)、字数、目标期刊格式、必须覆盖的研究问题(RQ1/RQ2...),把这些写成 Agent 的 system spec。
- 文献采集与引用管理(推荐 Zotero):建立 Collection;通过 DOI/ISBN/网页导入;安装 Zotero Better BibTeX 并统一 citekey 规则;定期导出 .bib(或保持自动导出)。
- 构建阅读库(RAG/全文索引):PDF 批量下载;用 GROBID 或 unstructured 做解析;存入向量库(Qdrant/Chroma/FAISS)+ 可选 BM25(Elasticsearch/OpenSearch)做混合检索。
- 设计最小技能集(先 6 个就够):
- 用通用 Agent 框架实现“计划-执行-校验”循环:规划器产出步骤;执行器调用技能;审稿器按 rubric 打分并提出修改指令(而不是直接重写整篇)。
- 与写作工具集成:
- 最小示例(技能注册表的形态示意,需按你实际框架改):
a) paper_search:Crossref/Semantic Scholar/arXiv 检索并输出 BibTeX/DOI b) pdf_ingest:解析 PDF→分段→入库(保留页码与标题层级) c) evidence_answer:基于检索结果生成“带出处的回答”(返回引用片段与定位信息) d) outline_builder:把 RQ 与证据映射成提纲(每节列出必须引用的文献) e) draft_writer:按提纲生成段落,但强制每段附引用列表(citekeys)与待核验点 f) citation_auditor:检查每条引用是否真实存在于 Zotero/BibTeX、DOI 是否可解析、段落是否有无来源的强断言
a) LaTeX 体系:Overleaf/TeX Live + BibTeX/Biber + latexmk;Agent 输出 .tex 片段与 .bib citekeys b) Word 体系:Zotero Word 插件插入引用;Agent 只生成结构化段落与引用占位符(citekey),避免直接生成最终格式
{
"skills": [
{"name": "paper_search", "io": "query -> [doi,title,url,bibtex]"},
{"name": "pdf_ingest", "io": "pdf_path -> index_id"},
{"name": "evidence_answer", "io": "question,index_id -> answer + citations"},
{"name": "outline_builder", "io": "rq_list + citations -> outline"},
{"name": "draft_writer", "io": "outline + constraints -> tex/markdown"},
{"name": "citation_auditor", "io": "draft + bib -> issues"}
]
}
Diagrams
Options
- 轻量方案(最快落地):不做复杂 Agent,只做“脚本化技能 + 模板化提示”。用 Zotero 管引用,Python 脚本做 PDF 解析与入库,写作时用 RAG 生成带引文的段落,再人工拼装与润色。
- 标准 Agent 方案(可扩展):选一个成熟框架(LangChain/LlamaIndex/AutoGen/CrewAI/Semantic Kernel),实现 planner-executor-critic;把技能做成可测试模块(单元测试 + 固定样例文库)。
- 重度工程方案(团队/长期):混合检索(BM25+向量)+ 结构化知识(引用图谱/论点图谱)+ 评测基准(引用命中率、事实一致性、章节覆盖率);适合长期维护的课题组写作基础设施。
- 另一种“agent-skills”定义分支:如果你指的是“小红书里提到的某个名为 agent-skills 的具体仓库/插件/提示库”,需要先核对其:支持的模型、技能定义格式(YAML/JSON/代码)、是否内置检索与引用、与 Obsidian/Zotero 的集成方式;然后再决定是直接用还是抽象成通用技能接口。
Expert Views
- 开源 LLM 应用工程师(paraphrase):更偏好“工具优先”的落地方式,认为把检索、解析、引用做成确定性工具,比在提示词里堆技巧更稳;建议先做小闭环(相关工作一节)再扩展到全篇。
- 学术写作教练/导师视角(paraphrase):强调论文质量取决于问题定义、贡献与论证链;Agent 适合做“结构化输出与一致性检查”,但不能替代研究设计与关键论断的责任归属。
- 图书馆员/信息素养专家(paraphrase):建议把检索策略标准化(关键词同义词表、布尔检索式、纳排标准 PRISMA 思路);并把每次检索的时间、数据库、式子记录成可复现的检索日志。
- 数据隐私与合规顾问(paraphrase):提醒处理未公开数据/受版权保护 PDF 时要注意上传到第三方 LLM 的风险;更偏好本地向量库与本地模型,或对敏感内容做脱敏与最小化上传。
Evidence & Confidence
- RAG + 强制引用输出能显著降低无来源幻觉,但不能保证引用与断言严格匹配(high):这是当前检索增强生成的普遍结论与工程经验,仍需 citation_auditor + 人工抽查。
- Zotero + Better BibTeX 是“引用可追溯”与跨工具协作的低成本方案(high):工具链成熟、社区广,且能与 LaTeX/Pandoc/Word 工作流对接。
- 用 GROBID/unstructured 解析 PDF 可提升分段与页码保留,从而更容易做“可定位引用”(medium):效果取决于 PDF 质量、扫描件 OCR、论文版式;需要抽样验收与回退策略。
- “agent-skills”若为特定项目,其能力边界与接口细节目前无法从输入中核验(low):仅看到小红书短链,无法在线核验内容与仓库信息。
Next Steps
- 你补充:学科方向、论文类型、目标模板、是否必须用中文引用格式(如 GB/T 7714)、以及 agent-skills 的确切链接/截图(优先 GitHub/文档)。
- 我给你输出一个“最小可行技能集”的目录结构(Python/Node 二选一)+ 配置文件模板(模型、向量库、Zotero 导出路径)+ 评测 rubric(引用命中率等)。
- 先跑一个 2 小时试点:选一个小节(Related Work/Background),用 20 篇文献生成 800–1200 字带引用草稿;再用 citation_auditor 列问题清单,你只做修订与补证据。
- 试点通过后再扩展到整篇:把每节的“必须回答的问题”和“必须引用的关键文献”固化为可复用写作模板。
Details (Optional)
Details
TL;DR
- 本文将“agent-skills”定义为:把论文写作拆成可复用的“技能/工具函数”(检索、摘要、引用插入、LaTeX 编译等),由 LLM Agent 规划并按需调用;不是单次 Prompt。(若你指的是某个同名仓库,需补充链接核对其 API)
- 论文写作最容易踩坑的环节不是“写不出来”,而是“引用不可靠、论证链不闭合、结构反复推倒重来”;技能化的核心价值是让每一步都有产物与可回溯证据。
- 推荐最小可行流程:Zotero 管引用与元数据 + 本地/云端 RAG 管阅读材料 + 写作模板(LaTeX/Word)+ 两个校验技能(事实核验/引用核验)。
- 目标不是让 Agent 替你写论文,而是让它像“研究助理”一样做检索、整理、对齐格式、检查一致性;关键结论与论证仍由作者负责。
Key Insights
- 把写作拆成技能后,Prompt 只负责“调度与标准”,执行由工具完成:检索走 API、解析走解析器、引用走 Zotero/BibTeX、格式走模板与编译器。
- 学术写作的“可靠性”主要来自可追溯链:每个段落绑定来源(DOI/页码/摘录),让 Agent 只能在证据库内生成,并输出引用依据(chunk id/页码)。
- 读写分离:先构建“可检索的阅读库”(PDF→结构化文本→向量库/全文索引),再做问答/综述/相关工作;避免边搜边写导致主题漂移。
- 评价要可量化:例如“每 200–300 字至少 1 条可点击引用”“引用中 DOI 命中率”“与提纲一致性(章节覆盖率)”“重复率/自相矛盾检测”。
Playbook
- 明确约束与输出物:论文类型(综述/实证/方法)、字数、目标期刊格式、必须覆盖的研究问题(RQ1/RQ2...),把这些写成 Agent 的 system spec。
- 文献采集与引用管理(推荐 Zotero):建立 Collection;通过 DOI/ISBN/网页导入;安装 Zotero Better BibTeX 并统一 citekey 规则;定期导出 .bib(或保持自动导出)。
- 构建阅读库(RAG/全文索引):PDF 批量下载;用 GROBID 或 unstructured 做解析;存入向量库(Qdrant/Chroma/FAISS)+ 可选 BM25(Elasticsearch/OpenSearch)做混合检索。
- 设计最小技能集(先 6 个就够):
- 用通用 Agent 框架实现“计划-执行-校验”循环:规划器产出步骤;执行器调用技能;审稿器按 rubric 打分并提出修改指令(而不是直接重写整篇)。
- 与写作工具集成:
- 最小示例(技能注册表的形态示意,需按你实际框架改):
a) paper_search:Crossref/Semantic Scholar/arXiv 检索并输出 BibTeX/DOI b) pdf_ingest:解析 PDF→分段→入库(保留页码与标题层级) c) evidence_answer:基于检索结果生成“带出处的回答”(返回引用片段与定位信息) d) outline_builder:把 RQ 与证据映射成提纲(每节列出必须引用的文献) e) draft_writer:按提纲生成段落,但强制每段附引用列表(citekeys)与待核验点 f) citation_auditor:检查每条引用是否真实存在于 Zotero/BibTeX、DOI 是否可解析、段落是否有无来源的强断言
a) LaTeX 体系:Overleaf/TeX Live + BibTeX/Biber + latexmk;Agent 输出 .tex 片段与 .bib citekeys b) Word 体系:Zotero Word 插件插入引用;Agent 只生成结构化段落与引用占位符(citekey),避免直接生成最终格式
{
"skills": [
{"name": "paper_search", "io": "query -> [doi,title,url,bibtex]"},
{"name": "pdf_ingest", "io": "pdf_path -> index_id"},
{"name": "evidence_answer", "io": "question,index_id -> answer + citations"},
{"name": "outline_builder", "io": "rq_list + citations -> outline"},
{"name": "draft_writer", "io": "outline + constraints -> tex/markdown"},
{"name": "citation_auditor", "io": "draft + bib -> issues"}
]
}
Expert Views
- 开源 LLM 应用工程师(paraphrase):更偏好“工具优先”的落地方式,认为把检索、解析、引用做成确定性工具,比在提示词里堆技巧更稳;建议先做小闭环(相关工作一节)再扩展到全篇。
- 学术写作教练/导师视角(paraphrase):强调论文质量取决于问题定义、贡献与论证链;Agent 适合做“结构化输出与一致性检查”,但不能替代研究设计与关键论断的责任归属。
- 图书馆员/信息素养专家(paraphrase):建议把检索策略标准化(关键词同义词表、布尔检索式、纳排标准 PRISMA 思路);并把每次检索的时间、数据库、式子记录成可复现的检索日志。
- 数据隐私与合规顾问(paraphrase):提醒处理未公开数据/受版权保护 PDF 时要注意上传到第三方 LLM 的风险;更偏好本地向量库与本地模型,或对敏感内容做脱敏与最小化上传。
Options
- 轻量方案(最快落地):不做复杂 Agent,只做“脚本化技能 + 模板化提示”。用 Zotero 管引用,Python 脚本做 PDF 解析与入库,写作时用 RAG 生成带引文的段落,再人工拼装与润色。
- 标准 Agent 方案(可扩展):选一个成熟框架(LangChain/LlamaIndex/AutoGen/CrewAI/Semantic Kernel),实现 planner-executor-critic;把技能做成可测试模块(单元测试 + 固定样例文库)。
- 重度工程方案(团队/长期):混合检索(BM25+向量)+ 结构化知识(引用图谱/论点图谱)+ 评测基准(引用命中率、事实一致性、章节覆盖率);适合长期维护的课题组写作基础设施。
- 另一种“agent-skills”定义分支:如果你指的是“小红书里提到的某个名为 agent-skills 的具体仓库/插件/提示库”,需要先核对其:支持的模型、技能定义格式(YAML/JSON/代码)、是否内置检索与引用、与 Obsidian/Zotero 的集成方式;然后再决定是直接用还是抽象成通用技能接口。
Evidence & Confidence
- RAG + 强制引用输出能显著降低无来源幻觉,但不能保证引用与断言严格匹配(high):这是当前检索增强生成的普遍结论与工程经验,仍需 citation_auditor + 人工抽查。
- Zotero + Better BibTeX 是“引用可追溯”与跨工具协作的低成本方案(high):工具链成熟、社区广,且能与 LaTeX/Pandoc/Word 工作流对接。
- 用 GROBID/unstructured 解析 PDF 可提升分段与页码保留,从而更容易做“可定位引用”(medium):效果取决于 PDF 质量、扫描件 OCR、论文版式;需要抽样验收与回退策略。
- “agent-skills”若为特定项目,其能力边界与接口细节目前无法从输入中核验(low):仅看到小红书短链,无法在线核验内容与仓库信息。
Next Steps
- 你补充:学科方向、论文类型、目标模板、是否必须用中文引用格式(如 GB/T 7714)、以及 agent-skills 的确切链接/截图(优先 GitHub/文档)。
- 我给你输出一个“最小可行技能集”的目录结构(Python/Node 二选一)+ 配置文件模板(模型、向量库、Zotero 导出路径)+ 评测 rubric(引用命中率等)。
- 先跑一个 2 小时试点:选一个小节(Related Work/Background),用 20 篇文献生成 800–1200 字带引用草稿;再用 citation_auditor 列问题清单,你只做修订与补证据。
- 试点通过后再扩展到整篇:把每节的“必须回答的问题”和“必须引用的关键文献”固化为可复用写作模板。
Sources
- 小红书短链 http://xhslink.com/o/8g7IB9IcLHy (无法在线核验内容,需你提供可访问的原文/截图)
- LangChain(Agent/Tools)https://github.com/langchain-ai/langchain
- LlamaIndex(RAG/Agent)https://github.com/run-llama/llama_index
- Microsoft AutoGen(多 Agent 协作)https://github.com/microsoft/autogen
- CrewAI(多角色协作)https://github.com/joaomdmoura/crewai
- Microsoft Semantic Kernel(技能/函数编排)https://github.com/microsoft/semantic-kernel
- PaperQA(面向论文问答)https://github.com/allenai/paperqa
- Zotero 官方文档 https://www.zotero.org/support/
- Zotero Better BibTeX https://github.com/retorquere/zotero-better-bibtex
- Pandoc(文档转换/引用处理)https://pandoc.org/
- Qdrant(向量库)https://github.com/qdrant/qdrant
- Chroma(向量库)https://github.com/chroma-core/chroma
- FAISS(向量检索)https://github.com/facebookresearch/faiss
- GROBID(PDF 解析)https://github.com/kermitt2/grobid
- unstructured(文档解析)https://github.com/Unstructured-IO/unstructured
- Crossref REST API(元数据/DOI)https://www.crossref.org/documentation/retrieve-metadata/rest-api/
- arXiv API https://arxiv.org/help/api/index
- Semantic Scholar API https://www.semanticscholar.org/product/api
Sources
- 小红书短链 http://xhslink.com/o/8g7IB9IcLHy (无法在线核验内容,需你提供可访问的原文/截图)
- LangChain(Agent/Tools)https://github.com/langchain-ai/langchain
- LlamaIndex(RAG/Agent)https://github.com/run-llama/llama_index
- Microsoft AutoGen(多 Agent 协作)https://github.com/microsoft/autogen
- CrewAI(多角色协作)https://github.com/joaomdmoura/crewai
- Microsoft Semantic Kernel(技能/函数编排)https://github.com/microsoft/semantic-kernel
- PaperQA(面向论文问答)https://github.com/allenai/paperqa
- Zotero 官方文档 https://www.zotero.org/support/
- Zotero Better BibTeX https://github.com/retorquere/zotero-better-bibtex
- Pandoc(文档转换/引用处理)https://pandoc.org/
- Qdrant(向量库)https://github.com/qdrant/qdrant
- Chroma(向量库)https://github.com/chroma-core/chroma
- FAISS(向量检索)https://github.com/facebookresearch/faiss
- GROBID(PDF 解析)https://github.com/kermitt2/grobid
- unstructured(文档解析)https://github.com/Unstructured-IO/unstructured
- Crossref REST API(元数据/DOI)https://www.crossref.org/documentation/retrieve-metadata/rest-api/
- arXiv API https://arxiv.org/help/api/index
- Semantic Scholar API https://www.semanticscholar.org/product/api
Closing Summary
- 结论:用“技能化Agent”搭建论文写作工作流与工具栈
- 下一步:把你的小红书笔记要点或 agent-skills 具体链接补充后,我可以按其“技能接口/配置方式”给出可落地的项目结构与脚本骨架。
One next action
把你的小红书笔记要点或 agent-skills 具体链接补充后,我可以按其“技能接口/配置方式”给出可落地的项目结构与脚本骨架。