skill-test: Claude Code Skill 测试框架

自动化测试与质量评估工具。发现、测试、对比并选择最适合需求的 skills。

触发短语

测试 [主题] 相关skill - 搜索并测试相关 skills
测试 [skill名称] - 直接测试特定 skill
test [topic] skills / test [skill-name] - 英文版

工作流程

1. Skill 发现

本地搜索：扫描已安装的 skills
远程搜索：通过 find-skills 查询 skills.sh
合并排序：去重、按安装量排序
展示选项：显示表格供用户选择

2. 测试执行

对每个选中的 skill：

准备 → 创建目录 [类别]/[skill名称]/，生成测试输入 input.md

执行 → 调用 skill，监控交互式问题，如有问题则召集领域专家自动回答，捕获输出和执行时间

成本分析 → 运行 /usage /cost 命令，记录性能指标

导出 → 运行 /export 到输出目录

重置 → 运行 /clear 重置会话，防止成本累积

总结 → 输出测试摘要，继续下一个

3. 报告生成

生成 SUMMARY.md：对比表格、关键发现、推荐建议、详细分析

评分维度

每个 skill 五个维度评分（1-5 分）：

维度	评估内容
输出质量	准确性、完整性、精致度
响应速度	执行时间（含专家咨询时间）
指令遵循	遵循文档行为的程度
实用性	真实世界价值
成本效率	Token 使用量与价值比（含专家成本）

总分：25 分

成本效率评分：5分(<5k) / 4分(5-15k) / 3分(15-30k) / 2分(30-50k) / 1分(>50k tokens)

自动交互处理

当被测 skill 提出交互式问题时，自动召集领域专家代理回答：

领域专家类型

内容策略专家 - 写作、内容创作（语气、受众、格式）
产品管理专家 - PRD、需求收集（策略、用户故事、可行性）
UX/UI 设计专家 - 界面设计、用户体验（设计系统、可访问性）
软件架构专家 - 系统设计、架构模式（微服务、可扩展性、安全性）
通用领域专家 - 跨职能问题、业务决策

专家召集流程

检测问题上下文（领域、问题、场景）
召集对应领域专家代理
专家分析并提供最能展示 skill 能力的答案
自动回复并继续测试

专家提示词模板：

你是【领域】专家，协助自动化 skill 测试。
上下文：被测 skill【名称】，测试场景【描述】，问题【内容】
任务：分析问题，选择最能展示 skill 能力的选项，提供简要理由，按期望格式回复。

实施规则：

绝不等待人工输入
总是召集相应专家代理
做出最能展示 skill 能力的决策
所有问答通过 /export 记录在 process.txt

输出结构

[类别]/
├── input.md           ← 测试提示词
├── [skill名称]/
│   ├── output.*       ← Skill 输出
│   ├── process.txt    ← 完整对话（含问答）
│   └── REPORT.md      ← 评估报告
└── SUMMARY.md         ← 综合分析

特殊情况处理

代理特定命令

自动检测代理类型（Claude Code/Cursor/其他）并使用相应命令（/usage /cost /export /clear）

会话重置

每个 skill 测试后必须运行 /clear 防止成本累积和指标重叠

不可调用的 Skills

如 user-invocable: false，则阅读文档手动应用，在报告中注明

失败/缺失的 Skills

失败：记录错误，反映在评分，继续测试缺失：提示确认，运行 npx skills add [package] -g -y

skill-test

Safety Notice

Copy this and send it to your AI assistant to learn

skill-test: Claude Code Skill 测试框架

触发短语

工作流程

1. Skill 发现

2. 测试执行

3. 报告生成

评分维度

自动交互处理

领域专家类型

专家召集流程

输出结构

特殊情况处理

代理特定命令

会话重置

不可调用的 Skills

失败/缺失的 Skills

Source Transparency

Related Skills

expert-arch-architect

skill-test

buzzword-engineering

skill-test