Skill Factory(Skill 工厂)
AI 作为规划层和验收层,通过迭代循环生产新的 Skill。支持可插拔的外部 AI 作为执行层,也可以由 AI 自身完成全部流程。
触发词
用户说以下任一内容时启动本 skill:
- "帮我做一个新 skill" / "创建 skill"
- "skill 工厂" / "造个 skill"
- "帮我迭代这个 skill" / "改进 skill"
- "把这个步骤拆成独立 skill"
使用方式
- 直接说"帮我做一个 XX skill",我会从需求对齐开始引导你
- 说"帮我迭代已有的 XX skill",我会在已有基础上改进
- 说"把 XX skill 的 YY 步骤拆成独立 skill",我会执行子 skill 分裂流程
一、概述
Skill Factory 是一个 meta-skill——造 skill 的 skill。
核心能力:
- 接收用户需求,设计并生成一个完整的 Skill
- 执行层可插拔:根据任务性质选择不同 AI(如 GPT、Gemini、Claude 等)
- 三档迭代测试:手动/半自动/全自动
- 对标驱动:全自动档通过对比参考成品来判断质量
- 先整后分:初版保持单体,稳定后再按需拆出子 skill
角色分工:
- AI(规划层):规划、设计、验收、迭代决策
- 外部 AI(执行层):内容生成、草稿撰写、代码编写等执行性工作
- 用户:需求输入、档位选择、最终验收
二、前置条件
- 如需调用外部 AI,需配置至少一个可用的 AI API(参见
tech-library.md模板) - 如需智能选择执行层 AI,需配置场景-AI 对照表(参见
call-guide.md模板) - 最小可用配置:即使没有外部 AI API,AI 自身也可以作为唯一执行层完成全部流程
三、执行流程
第零步:请求分流
在进入正式流程前,先判断请求类型:
- "我要一个新的 XX skill" → 创建模式:走完整第一步到第九步
- "帮我改进/迭代已有的 XX skill" → 迭代模式:跳到第二步(选档),第三步加载已有 skill 为基础
- "帮我把 XX skill 的 YY 步骤拆成独立 skill" → 分裂模式:走子 Skill 分裂流程(见第七章)
- 不是 skill 相关的请求 → 告知用户此 skill 专用于创建/迭代 skill
迭代模式特殊规则:
- 已有 skill 自动成为"骨架参考"(跳过第三步的选择环节)
- 用户可以同时提供对标成品用于全自动档对比
- 修改基于已有内容,不生成全新文件
第一步:需求对齐
- 用户提出需求:"我要一个 XX skill"
- AI 与用户反复讨论,直到完全理解:
- Skill 要解决什么问题:核心使用场景
- 触发方式:什么时候调用这个 skill
- 输入和输出:用户给什么、skill 产出什么
- 质量标准:什么样的输出算"好"
- 参考对标:有没有现成的成品可以作为目标
- AI 复述需求给用户确认
- 用户确认后才进入下一步
- 禁止跳过此步:需求不清就开始设计 = 浪费迭代次数
第二步:选档
向用户确认迭代模式:
| 档位 | 人机比例 | 适用场景 |
|---|---|---|
| 手动档 | 用户100% | 用户只需要初版,自己改 |
| 半自动档 | 用户在关键节点介入 | 需要用户判断质量方向 |
| 全自动档 | 用户提供参考,AI 自动迭代 | 有明确对标成品 |
全自动档额外参数:
- 循环上限:用户设定最大迭代次数(建议 3-8 次)
- 对标材料:用户提供参考成品
第三步:选参考
- 模板参考:列出所有现有 skill,让用户选择一个结构最接近的作为骨架参考
- 如果没有合适的,使用通用 skill 骨架(见附录 A)
- 对标成品(全自动档必须提供):
- 一个或多个期望输出的样本
- AI 分析成品的结构、风格、深度
- 提取评价维度,用于后续对比
第四步:分析设计
- 拆解步骤:将 skill 的工作流拆成具体步骤
- 选择 AI:根据场景-AI 对照表,为每个步骤选择最合适的 AI
- 粗判子 skill 潜力:标记可能独立的步骤为
[潜在子skill],但不拆分 - 生成设计文档:展示给用户确认
设计文档格式:
## Skill 设计:<skill名称>
### 步骤拆解
1. <步骤名> → 执行AI: <AI名称> → [潜在子skill](如适用)
2. <步骤名> → 执行AI: <AI名称>
### 输出格式
<预期的 Skill 结构大纲>
### 参考来源
- 骨架参考:<已有skill名称>
- 对标成品:<成品描述>
第五步:生成初版 Skill
- 根据设计文档,生成完整的 Skill 内容
- 包含标准前置元数据(name + description)
- 包含完整的工作流程、模板、规则
- 对需要调用外部 AI 的步骤,写入具体的调用指引
生成规则:
- 参考骨架 skill 的结构和风格
- 每个步骤必须可独立执行,有明确的输入输出
- 包含"与其他 skill 的配合"部分
手动档:生成后直接交付用户,流程结束(跳到第九步)。
第六步:测试运行
用真实输入运行刚生成的 skill,验证是否可用。
测试方式:
- 模拟调用这个 skill 的完整流程
- 对需要外部 AI 的步骤,实际调用 API 获取输出
- 记录每个步骤的输入、输出、耗时
- 记录异常和失败点
测试输出:
## 测试报告 - 第N轮
### 执行摘要
- 测试输入:<描述>
- 总步骤数:X
- 成功步骤:Y
- 失败步骤:Z
### 逐步结果
| 步骤 | 状态 | 执行AI | 输出摘要 | 问题 |
|------|------|--------|---------|------|
### 最终输出
<skill 产出的完整结果>
第七步:对比反馈(质量门)
将测试输出与参考成品进行对比,产出明确的质量判定。
评分维度(每项 0-10 分):
| 维度 | 说明 |
|---|---|
| 结构完整度 | 是否包含所有必要部分 |
| 内容深度 | 内容是否足够详细和专业 |
| 风格匹配度 | 语气、表达方式是否与参考一致 |
| 可执行性 | 步骤是否清晰到可以直接执行 |
| 输出质量 | 最终产出是否达到参考水准 |
质量判定(Quality Gate):
- PASS(总分 >= 40/50)→ 质量达标,直接进入交付
- CONCERNS(总分 35-39/50)→ 半自动档展示报告由用户决定;全自动档自动继续迭代
- FAIL(总分 < 35/50)→ 进入迭代修改
- 收敛(连续两轮总分变化 <= 1)→ 质量已稳定,退出迭代
对比报告格式:
## 对比报告 - 第N轮
### 质量判定:PASS / CONCERNS / FAIL
### 评分
| 维度 | 分数 | 上轮 | 变化 |
|------|------|------|------|
| 结构完整度 | X/10 | Y/10 | +Z |
| 内容深度 | X/10 | Y/10 | +Z |
| 风格匹配度 | X/10 | Y/10 | +Z |
| 可执行性 | X/10 | Y/10 | +Z |
| 输出质量 | X/10 | Y/10 | +Z |
| **总分** | **XX/50** | **YY/50** | **+ZZ** |
### 差距分析
1. <具体问题>
### 修改建议(仅 CONCERNS/FAIL 时生成)
1. <具体修改建议>
第八步:迭代修改
根据对比报告的修改建议,修改 Skill 内容。
迭代规则:
- 逐条执行修改建议
- 修改后回到第六步重新测试
- 循环直到满足退出条件
退出条件(满足任一即退出):
- 收敛:连续两轮总分变化 <= 1 分
- 达标:总分 >= 40/50(80%)
- 到限:达到用户设定的循环上限
- 用户中断:用户主动喊停(半自动档)
每轮迭代记录:
### 迭代记录 - 第N轮
- 修改项:<改了什么>
- 测试结果:<通过/失败>
- 总分变化:XX → YY
- 状态:继续迭代 / 收敛退出 / 达标退出 / 到限退出
第九步:交付部署
- 整理最终版 Skill
- 生成交付报告:
## Skill Factory 交付报告
### 基本信息
- Skill 名称:<name>
- 迭代轮次:N 轮
- 最终评分:XX/50
- 退出原因:收敛 / 达标 / 到限 / 手动
### 迭代历程
| 轮次 | 总分 | 主要修改 |
|------|------|---------|
### 子 Skill 潜力标记
- [潜在子skill] <步骤名>:<独立的理由>
### 后续建议
- <建议1>
- <建议2>
- 用户决定部署位置
四、三档模式详细规则
手动档
第一步 → 第二步 → 第三步 → 第四步 → 第五步 → 第九步(直接交付)
- 跳过测试、对比、迭代
- 用户拿到初版后自行修改和测试
半自动档
第一步 → 第二步 → 第三步 → 第四步 → 第五步
→ 第六步 → 第七步 → [用户确认] → 第八步 → 回到第六步
→ ... → 用户满意 → 第九步
- 每轮迭代后展示对比报告,等用户确认方向
全自动档
第一步 → 第二步 → 第三步 → 第四步 → 第五步
→ 第六步 → 第七步 → 第八步 → 回到第六步
→ ... → 满足退出条件 → 第九步
- 用户只在前三步参与,后续完全自动循环
- 靠收敛/达标/到限三个条件自动退出
五、AI 调用规范
选择执行层 AI
根据场景-AI 对照表(call-guide.md)判断:
- 该步骤是否需要调用外部 AI
- 评审验收必须由规划层 AI 自身执行,不可外包
- 需要外部 AI 时,走三级降级链:主用 AI → 备用 AI → AI 自身
降级规则
| 规则 | 说明 |
|---|---|
| 失败判定 | 同一 AI 连续失败 2 次才触发降级 |
| 失败类型 | HTTP 错误、超时、空响应、解析失败 |
| 记录日志 | 每次降级记录:日期、AI、失败原因、降级到谁 |
| 下次重试 | 降级不是永久的——下一个新任务仍先尝试主用 AI |
调用方式
所有第三方 API 统一使用 OpenAI 兼容格式调用。具体的 API 配置参见 tech-library.md,调用模板参见 call-guide.md。
六、对比验收机制
评分维度
| 维度 | 权重 | 评分标准 |
|---|---|---|
| 结构完整度 | 20% | 是否包含所有必要章节和步骤 |
| 内容深度 | 25% | 知识密度、专业性、细节程度 |
| 风格匹配度 | 15% | 与参考成品的语气、表达一致性 |
| 可执行性 | 25% | 步骤能否直接执行、是否有歧义 |
| 输出质量 | 15% | 最终产出的整体质量感受 |
收敛判断
- 连续两轮总分变化 <= 1 → 收敛退出
- 总分 >= 40 → 达标退出
- 当前轮次 >= 循环上限 → 到限退出
- 否则 → 继续迭代
无参考成品时
- 跳过"风格匹配度"维度
- 用 skill 规范(结构完整、步骤可执行、无遗漏)作为评判标准
七、子 Skill 分裂规则
设计阶段:粗判标记
标记条件(满足 2 条以上):
- 该步骤逻辑完整,可独立运行
- 该步骤在其他 skill 中也可能被复用
- 该步骤足够复杂,值得单独维护
- 该步骤使用的 AI 和其他步骤不同
迭代阶段:细调分裂
触发时机:主 skill 基础功能稳定后,用户主动提出。
分裂流程:
- 从主 skill 中提取目标步骤
- 用 skill-factory 自身为该步骤生成独立 skill
- 在主 skill 中将该步骤替换为子 skill 调用指引
- 测试主 skill + 子 skill 的衔接
八、核心规则
- 需求不清不动手:第一步必须完成,复述确认后才继续
- 档位即承诺:选了全自动就不中途随意切半自动(除非用户主动要求)
- 先整后分:初版 skill 保持单体,不提前拆分子 skill
- 迭代有限:全自动档必须设循环上限,防止空转
- 降级可用:任何外部 AI 不可用时,AI 自身顶上
- 记录透明:每轮迭代的修改、评分、决策全部记录
示例
用户:帮我做一个"会议纪要"skill 小龙虾:好的,我来帮你创建一个会议纪要 skill。先确认几个问题:
- 这个 skill 要解决什么问题?(比如:自动从对话中提取会议要点)
- 用户会怎么触发?(比如:说"整理会议纪要")
- 输入是什么?(比如:一段会议聊天记录)
- 输出要什么格式?(比如:标题+参会人+决议+待办)
- 有没有参考样本?
用户:就是整理群里的讨论,输出待办和结论就行,半自动档 小龙虾:明白了。我来复述确认:……(进入完整流程)
与其他 Skill 的配合
- 知识蒸馏类 skill:skill 开发过程中的经验可写入知识库
- SOP 生成器:如果某个 skill 的生产过程值得复用,可生成 SOP
- 版本管理类 skill:skill 正式部署后,可记录版本日志
附录 A:通用 Skill 骨架
当没有合适的现有 skill 作为参考时,使用此骨架:
---
name: <skill-name>
description: "<一句话描述>"
---
# <Skill 名称>
<一句话概述>
## 触发词
用户说以下任一内容时启动本 skill:
- "<触发词1>"
- "<触发词2>"
## 使用方式
- 直接说"<触发词>",我会引导你完成
- 或者说"<触发词> + 具体内容"直接执行
## 执行流程
1. **<步骤名>**
- <步骤内容>
2. **<步骤名>**
- <步骤内容>
## 核心规则
1. <规则1>
2. <规则2>
## 与其他 Skill 的配合
- **<skill名>**:<配合方式>
附录 B:流程上下文变量
skill-factory 运行时维护以下上下文变量:
| 变量 | 设定时机 | 用途 |
|---|---|---|
target_skill_name | 第一步 | 目标 skill 名称 |
mode | 第二步 | 手动/半自动/全自动 |
max_iterations | 第二步 | 全自动档循环上限 |
reference_skill | 第三步 | 骨架参考 skill |
benchmark_material | 第三步 | 对标成品 |
current_iteration | 第六步起 | 当前迭代轮次 |
scores_history | 第七步起 | 历次评分记录 |
参考文档
- 技术库模板:tech-library.md — AI API 配置参考
- 调用指南模板:call-guide.md — 场景-AI 对照与调用方式