ClawBrain Benchmark
测试你的 AI 在 OpenClaw 中的真实表现。看看它做简单事行不行,做复杂事会不会掉链子。
使用方法
直接说"跑一下 benchmark"或"测试一下模型效果"。
测试什么
10 大类、205 个真实场景:
| 类别 | 测什么 | 为什么重要 |
|---|---|---|
| 文件操作 | 读、写、编辑文件 | 基本功 |
| 搜索 | 查资料、抓网页 | 日常需求 |
| 消息 | 微信、钉钉发消息 | 沟通协作 |
| 终端 | 跑命令、管服务 | 开发运维 |
| 多步任务 | 搜索→整理→保存→通知 | 真正做事的能力 |
| 错误恢复 | 出错了怎么办 | 靠不靠谱 |
| 模糊指令 | "帮我准备下" | 聪不聪明 |
| 视觉理解 | 看图、截图识别 | 多模态能力 |
评测结果(v1.0)
| 模型 | 综合 | 文件 | 搜索 | 终端 | 错误恢复 | 模糊指令 | 多步 |
|---|---|---|---|---|---|---|---|
| ClawBrain Auto | 90% | 100% | 100% | 100% | 100% | 100% | 80% |
| ClawBrain Pro | 86% | 100% | 100% | 100% | 100% | 100% | 80% |
| 单模型 A | 83% | 95% | 100% | 90% | 80% | 65% | 73% |
| 单模型 B | 81% | 85% | 100% | 90% | 76% | 55% | 73% |
| 单模型 C | 73% | 100% | 100% | 90% | 56% | 65% | 80% |
ClawBrain 通过编排引擎实现:主动思考→多模型协作→输出验证→错误恢复,综合表现超越任何单模型。