Agent Eval

# Agent Eval — 量化评估 + 自我进化闭环

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "Agent Eval" with this command: npx skills add luaqnyin/agent-eval

Agent Eval — 量化评估 + 自我进化闭环

核心理念:能被衡量的东西,就能被优化。 基于 Karpathy AutoResearch eval loop + 诸子 Agent 复盘体系 + Phoenix Memory 架构

通用 Eval 流程

生成 → 评估 → 打分 → 分析失败点 → 改一个小地方 → 重跑 → 分数涨了保留,跌了撤回 → 循环

Eval 编写规则

  • 每条 eval 必须是 yes/no 二元判断
  • 不能主观(❌"写得好吗" → ✅"标题是否包含具体数字")
  • 每条测一个独立维度,不重叠
  • 3-6 条最合适,太多会开始刷题
  • 用真实历史任务做测试集,不编造

各 Agent Eval Checklist

✍️ Content(公文/论文撰写)

#检查项权重说明
C1格式规范:标题编号/字号/行距是否符合公文或论文标准对照GB/T 9704或目标期刊
C2无 AI 痕迹:正文中是否出现"作为AI"/"笔者"/"综上所述"等AI常见用语全文检索
C3数据真实:所有数字、百分比是否来自可验证来源(非估算)极高对应 PAT-20260403-001/002
C4角色准确:文种是否匹配(通知/报告/请示/论文各有套路)文体识别
C5一稿可用率:是否无需老板大幅修改即可使用历史对比

🛡️ Shield(合同/法律审查)

#检查项权重说明
S1高风险条款标记:是否标注了所有🟡🟠🔴风险条款极高质7条/保8条等红线
S2法律依据:每条审查意见是否引用具体法条/规章不能空口白说
S3可操作性:是否给出具体修改建议(而非只说"有风险")对方能拿去直接改
S4遗漏检查:是否有重要条款被遗漏(付款/违约/终止/保密)对照检查清单
S5医院适配:是否考虑了公立医院特殊条款(财政审计/采购流程)行业定制

😈 Devil(找茬挑刺/科研质控)

5阶段 Peer-Review 流程 + 偏差检测框架(蒸馏自 K-Dense ScholarEval)

评审流程:

  1. 初评(研究问题+整体质量+大缺陷)
  2. 逐节审(摘要→引言→方法→结果→讨论→参考文献)
  3. 方法学+统计严谨性
  4. 可复现性+透明度
  5. 图表+数据呈现

偏差检测清单(必须覆盖):

  • 认知偏差:确认偏差、HARKing、发表偏差、樱桃挑选
  • 选择偏差:采样偏差、失访偏差、幸存者偏差
  • 分析偏差:p-hacking、结局切换、选择性报告、亚组钓鱼
  • 混杂因素:未测量混杂、替代解释
#检查项权重说明
D1找出真实问题:是否至少指出1个非显而易见的实质性缺陷极高不能只挑格式
D2论据充分:每个批评是否有具体论据/数据/文献支撑不能空穴来风
D3偏差检测:是否覆盖5类偏差中的至少2类蒸馏自K-Dense
D4统计审评:是否检查了效应量、多重比较、样本量蒸馏自K-Dense
D5不误伤:是否没有对正确内容进行无理挑刺避免为了挑刺而挑刺
D6可执行建议:是否给出改进方向(而非只否定)建设性挑刺

📜 Sage(古籍/文学/中医)

#检查项权重说明
SG1出处准确:引文是否标注真实出处(书名/卷/篇)极高不能编造古籍
SG2语境匹配:引用是否与论述主题相关(非生搬硬套)语义关联
SG3现代转化:是否能将古文用现代语言清晰解释翻译质量
SG4深度:是否提供了超越浅层引用的深入解读非百度百科式

🎓 Scholar(学术检索/论文辅助)

8维度评分框架(蒸馏自 K-Dense ScholarEval)

8维度: 问题定义 | 文献综述 | 方法论 | 数据来源 | 分析解读 | 结果呈现 | 学术写作 | 引用规范

#检查项权重说明
SC1引用真实:所有引用文献是否真实存在(DOI/arXiv ID可验证)极高反AI幻觉核心
SC2相关性:检索结果与课题的相关度(前5条中至少3条高度相关)
SC3时效性:引用文献是否以近3年为主(经典文献除外)
SC4完整性:是否覆盖了课题的主要子领域不能只搜一个方向
SC5批判性:文献综述是否区分了'总结'和'批判'(非罗列)K-Dense ScholarEval
SC6方法论审评:对引用文献的方法论质量是否有评估K-Dense ScholarEval

📊 Analyzer(数据分析)

#检查项权重说明
A1数据源标注:是否明确标注数据来源和时间极高对应 PAT-20260403
A2计算可复现:关键数字是否能从原始数据手算验证不臆想
A3方法说明:是否说明了分析方法(描述统计/回归/卡方等)
A4局限性:是否指出了数据的局限和适用范围诚实原则

🏥 Medical(医疗/互联网医院)

GRADE 证据分级 + 偏差检测(蒸馏自 K-Dense CDS + Critical-Thinking)

GRADE 分级: 1A(强推荐+高质量)→ 1B → 2A → 2B → 2C(弱推荐+极低质量)

#检查项权重说明
M1政策依据:是否引用最新的国家/省级政策文件互联网医院政策变化快
M2数据时效:引用的医院/行业数据是否在时效红线内极高IMA 红线
M3临床相关性:建议是否有临床/管理实践支撑
M4证据分级:是否对关键建议标注了GRADE等级(或注明证据强度)K-Dense CDS
M5偏差意识:是否指出引用研究中的潜在偏差(选择/测量/混杂)K-Dense Critical-Thinking

打分机制

总分 = Σ(通过项权重) / Σ(所有项权重) × 100

等级:
  90+ = 🟢 优秀(可自动交付)
  70-89 = 🟡 良好(需抽查)
  50-69 = 🟠 需改进(必须人工审)
  <50  = 🔴 不合格(重新执行)

Cron 自动评估流程

每日 23:30 — Agent 自评

  1. 读取当日该 agent 的所有任务记录(memory/YYYY-MM-DD.md)
  2. 对每个任务逐项跑 eval checklist
  3. 计算当日平均分
  4. 记录到 memory/evolution/<agent-id>.md

每周日 00:00 — CEO 周报

  1. 汇总各 agent 周平均分
  2. 识别分数下降趋势 → 触发调查
  3. 识别高分稳定 agent → 确认无需干预
  4. 提炼本周 top-3 失败点 → 写入 patterns.md
  5. 将整体评分趋势发给老板

触发优化的条件

  • 连续3天某 agent 低于 70 分 → 自动 SOUL.md 检查
  • 某个 eval 项连续5次失败 → 写入 PAT 记录
  • 周均分下降 >10% → 触发 agent 模型/配置审查

与现有体系的衔接

现有组件Eval 衔接方式
Phoenix Memory L0每日日志已包含任务记录,eval 直接读取
patterns.mdeval 失败模式自动写入 PAT
五层质检eval 是 L2-L3 层的量化标准
AGENTS.md autoresearcheval 分数就是 autoresearch 的 loss function
心跳 HEARTBEAT.md周日 eval 周报纳入心跳检查

进化记录格式

memory/evolution/<agent-id>.md:

# <Agent 名称> 进化日志

## 2026-04-04
- 日均任务数: 3
- Eval 均分: 78/100 🟡
- 通过项: C1✅ C2✅ C3❌ C4✅ C5🟡
- 失败分析: C3 数据真实度不达标(2/3任务使用了估算数据)
- 改进措施: 在 spawn 指令中强调"所有数字必须标注来源"

注意事项

  • Eval 是工具,不是目的。分数只是手段,最终目标是老板满意度
  • 不要为了刷分而刷分——如果某条 eval 不再有意义,该删就删
  • 新 agent 上线前必须先定义 eval,没有 eval 的 agent 不转正
  • 老板的口头反馈 > eval 分数(遇到矛盾时以老板为准)

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

Research

Batch Content Factory

Multi-platform content production line. Automates the entire workflow from topic research to content creation. Suitable for self-media operators producing hi...

Registry SourceRecently Updated
Research

流式AI检索问答技能

通用流式AI检索问答技能 — 为任意行业应用提供四步流式分析交互界面。 触发场景:用户输入关键词 → AI自动执行:理解意图 → 检索知识库 → 流式生成 → 来源标记 → 完整回答。 当需要实现以下任意场景时激活: (1) AI搜索框 / 智能咨询组件重构 (2) 知识库问答(医疗/法律/金融/教育等垂直领域)...

Registry SourceRecently Updated
Research

Fund Analyzer Pro

[何时使用]当用户需要基金深度分析时;当用户说"分析这个基金""基金对比""基金诊断""基金经理分析"时;当检测到基金代码/基金名称/投顾策略时触发。整合天天基金 API+ 且慢 MCP,提供单一基金分析/基金比较/基金诊断/持仓诊断/基金经理/机会分析/投资方式/报告信号八大模块。新增信号监控提醒功能(sign...

Registry SourceRecently Updated
Research

Pilot Service Agents Academic

Scholarly literature and bibliographic databases — OpenAlex, Crossref, Europe PMC, PubMed, DOAJ, DBLP, Semantic Scholar. Use this skill when: 1. Searching pe...

Registry SourceRecently Updated