skill-test: Claude Code Skill 测试框架
自动化测试与质量评估工具。发现、测试、对比并选择最适合需求的 skills。
触发短语
测试 [主题] 相关skill- 搜索并测试相关 skills测试 [skill名称]- 直接测试特定 skilltest [topic] skills/test [skill-name]- 英文版
工作流程
1. Skill 发现
- 本地搜索:扫描已安装的 skills
- 远程搜索:通过
find-skills查询 skills.sh - 合并排序:去重、按安装量排序
- 展示选项:显示表格供用户选择
2. 测试执行
对每个选中的 skill:
准备 → 创建目录 [类别]/[skill名称]/,生成测试输入 input.md
执行 → 调用 skill,监控交互式问题,如有问题则召集领域专家自动回答,捕获输出和执行时间
成本分析 → 运行 /usage /cost 命令,记录性能指标
导出 → 运行 /export 到输出目录
重置 → 运行 /clear 重置会话,防止成本累积
总结 → 输出测试摘要,继续下一个
3. 报告生成
生成 SUMMARY.md:对比表格、关键发现、推荐建议、详细分析
评分维度
每个 skill 五个维度评分(1-5 分):
| 维度 | 评估内容 |
|---|---|
| 输出质量 | 准确性、完整性、精致度 |
| 响应速度 | 执行时间(含专家咨询时间) |
| 指令遵循 | 遵循文档行为的程度 |
| 实用性 | 真实世界价值 |
| 成本效率 | Token 使用量与价值比(含专家成本) |
总分:25 分
成本效率评分:5分(<5k) / 4分(5-15k) / 3分(15-30k) / 2分(30-50k) / 1分(>50k tokens)
自动交互处理
当被测 skill 提出交互式问题时,自动召集领域专家代理回答:
领域专家类型
- 内容策略专家 - 写作、内容创作(语气、受众、格式)
- 产品管理专家 - PRD、需求收集(策略、用户故事、可行性)
- UX/UI 设计专家 - 界面设计、用户体验(设计系统、可访问性)
- 软件架构专家 - 系统设计、架构模式(微服务、可扩展性、安全性)
- 通用领域专家 - 跨职能问题、业务决策
专家召集流程
- 检测问题上下文(领域、问题、场景)
- 召集对应领域专家代理
- 专家分析并提供最能展示 skill 能力的答案
- 自动回复并继续测试
专家提示词模板:
你是【领域】专家,协助自动化 skill 测试。
上下文:被测 skill【名称】,测试场景【描述】,问题【内容】
任务:分析问题,选择最能展示 skill 能力的选项,提供简要理由,按期望格式回复。
实施规则:
- 绝不等待人工输入
- 总是召集相应专家代理
- 做出最能展示 skill 能力的决策
- 所有问答通过
/export记录在 process.txt
输出结构
[类别]/
├── input.md ← 测试提示词
├── [skill名称]/
│ ├── output.* ← Skill 输出
│ ├── process.txt ← 完整对话(含问答)
│ └── REPORT.md ← 评估报告
└── SUMMARY.md ← 综合分析
特殊情况处理
代理特定命令
自动检测代理类型(Claude Code/Cursor/其他)并使用相应命令(/usage /cost /export /clear)
会话重置
每个 skill 测试后必须运行 /clear 防止成本累积和指标重叠
不可调用的 Skills
如 user-invocable: false,则阅读文档手动应用,在报告中注明
失败/缺失的 Skills
失败:记录错误,反映在评分,继续测试
缺失:提示确认,运行 npx skills add [package] -g -y