openclaw-smartness-eval

OpenClaw 智能度综合评伌技能。围绕 14 个维度(含规划能力、幻觉控制)输出综合评分、证据、风险与趋势。对齐 CLEAR/T-Eval/Anthropic 行业标准。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "openclaw-smartness-eval" with this command: npx skills add yh22e/smartness-eval-open-source

OpenClaw Smartness Eval

用于评估 OpenClaw 是否真的“更聪明”,而不是只看单次回答是否看起来不错。

适用场景

  • 版本升级后回归:确认能力是否真的提升
  • 每周 / 每月自评:输出结构化能力报告
  • 发现退化:查看哪个维度下降最快
  • 准备对外展示:生成统一口径的能力评估结果

命令

1) 标准评估

python3 skills/openclaw-smartness-eval/scripts/eval.py --mode standard

2) 快速评估

python3 skills/openclaw-smartness-eval/scripts/eval.py --mode quick

3) 深度评估

python3 skills/openclaw-smartness-eval/scripts/eval.py --mode deep --compare-last

4) 只输出 Markdown

python3 skills/openclaw-smartness-eval/scripts/eval.py --mode standard --format markdown

5) 健康检查

python3 skills/openclaw-smartness-eval/scripts/check.py

输出内容

评估结果将写入:

  • state/smartness-eval/runs/<timestamp>.json
  • state/smartness-eval/reports/<date>.md
  • state/smartness-eval/history.jsonl

输出结果包含:

  • overall_score
  • grade
  • dimension_scores
  • expanded_scores
  • evidence
  • risk_flags
  • upgrade_recommendations
  • trend_vs_last

6) LLM Judge 主观评分

python3 skills/openclaw-smartness-eval/scripts/eval.py --mode standard --llm-judge

需设置 DEEPSEEK_API_KEYOPENAI_API_KEY 环境变量。 该功能会发起外部 API 请求,默认不开启,仅在显式传入 --llm-judge 时启用。

输出新增字段 (v0.2)

  • dimension_spread — 维度间离散度
  • trend_vs_last.dimension_deltas — 各维度分数变化
  • trend_vs_last.degradation_alert — 退化超过 5 分的维度
  • pass_at_k — deep 模式下各测试的 pass@k 可靠性
  • llm_judge — LLM 裁判主观评分和评语

数据来源

  • state/response-latency-metrics.json
  • state/error-tracker.json (时间窗口过滤)
  • state/pattern-library.json
  • state/cron-governor-report.json
  • state/benchmark-results/history.jsonl
  • state/v5-orchestrator-log.json
  • state/v5-finalize-log.json
  • state/message-analyzer-log.json (真实日志抽样)
  • state/reflection-reports/ (反思报告)
  • state/alerts.jsonl (告警日志)
  • state/rule-candidates.json
  • .reasoning/reasoning-store.sqlite (推理知识库)
  • scripts/regression-metrics-report.py (回归指标)
  • 任务集中的 34 项规则测试命令
  • 随机探针测试 (反作弊)

模式说明

  • quick — 小样本 + 关键日志,~10 个测试
  • standard — 默认周度评估,~25 个测试 + 2 个随机探针
  • deep — 全部测试 x2 重复运行 + pass@k + 30天窗口 + 趋势对比

安全声明 / Security Declaration

本技能被设计为只读评估工具,以下是完整的行为声明:

文件读取(只读)

本技能只读取以下工作区状态文件,不修改任何现有文件

文件用途写入?
state/response-latency-metrics.json延迟 P50/P95 计算❌ 只读
state/error-tracker.json错误修复率统计❌ 只读
state/pattern-library.json模式库健康度❌ 只读
state/cron-governor-report.jsonCron 任务状态❌ 只读
state/benchmark-results/history.jsonl基准测试通过率❌ 只读
state/v5-orchestrator-log.json编排器使用量❌ 只读
state/v5-finalize-log.jsonFinalize 审批率❌ 只读
state/message-analyzer-log.json真实交互采样❌ 只读
state/reflection-reports/自省报告数量❌ 只读
state/alerts.jsonl告警频率统计❌ 只读
.reasoning/reasoning-store.sqlite推理深度查询❌ 只读

文件写入(仅限自身输出目录)

本技能仅写入 state/smartness-eval/ 目录下的评估结果:

  • state/smartness-eval/runs/<timestamp>.json — 完整评估 JSON
  • state/smartness-eval/reports/<date>.md — Markdown 报告
  • state/smartness-eval/history.jsonl — 历史评分记录

命令执行

本技能通过 subprocess 运行 task-suite.json 中定义的测试命令:

  • 所有命令都经过白名单校验validate_command() 函数)
  • 禁止:内联 Python/Shell 代码、绝对路径、管道操作、危险系统命令
  • 只允许:以 python3 scripts/cat state/sqlite3 .reasoning/ 等安全前缀开头的命令
  • 命令执行超时限制为 30 秒

网络访问

  • 默认无网络访问
  • 仅在用户显式传入 --llm-judge 参数时,会调用 DeepSeek/OpenAI API(需用户自行配置 API Key)
  • 除此之外,本技能完全离线运行

无持久化副作用

  • 不修改 OpenClaw 配置
  • 不安装任何依赖
  • 不修改系统文件
  • 不发送遥测数据
  • 仅使用 Python 标准库

文件结构

openclaw-smartness-eval/
├── SKILL.md
├── _meta.json
├── config/
│   ├── config.json
│   ├── rubrics.json
│   └── task-suite.json
└── scripts/
    ├── eval.py
    └── check.py

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Huo15 Openclaw Enhance

火一五·克劳德·龙虾增强插件 v5.7.8 — 全面适配 openclaw 2026.4.24:peerDep ^4.24 + build/compat 同步到 4.24 + 14 处 api.on 全部去掉 as any 改成 typed hook(hookName 联合类型 + handler 自动推断 Pl...

Registry SourceRecently Updated
General

Content Trend Analyzer

Aggregates and analyzes content trends across platforms to identify hot topics, user intent, content gaps, and generates data-driven article outlines.

Registry SourceRecently Updated
General

Prompt Debugger

Debug prompts that produce unexpected AI outputs — diagnose failure modes, identify ambiguity and conflicting instructions, test variations, compare model re...

Registry SourceRecently Updated
General

Indie Maker News

独行者 Daily - 变现雷达。读对一条新闻,少走一年弯路。每天5分钟,给创业者装上商业雷达。聚焦一人公司、副业、创业变现资讯,智能分类,行动导向。用户下载即能用,无需本地部署!

Registry SourceRecently Updated