Auto QA (OpenClaw Browser)
用于一期 MVP:
- 自动执行网页关键路径
- 自动采集失败证据(截图、console、network、trace)
- 自动输出 CTO 可读报告与修复任务包
- 自动重试、断点续跑、健康检查与失败分类(环境/产品)
实际组件构成(一期 MVP)
场景定义组件
- 位置:
demo/scenarios/*.json - 作用:声明测试步骤、断言条件、期望结果。
- 输入:业务路径(P0 场景)。
- 输出:可执行步骤序列(供执行编排器读取)。
执行编排器
- 位置:
src/skills/auto-qa/scripts/run_autoqa.py - 作用:读取场景并调用
openclaw browser执行动作。 - 输入:场景 JSON、浏览器 profile、run_id。
- 输出:步骤结果、证据文件、汇总报告与修复提示包。
浏览器执行器(OpenClaw 内置能力)
- 位置:OpenClaw CLI
openclaw browser ... - 作用:点击、输入、等待、快照、截图、日志与 trace。
- 输入:编排器下发的步骤参数。
- 输出:结构化 JSON 结果和调试数据。
证据归档组件
- 位置:
demo/artifacts/run-<run_id>/ - 作用:按 run 归档步骤明细、截图、console、network、trace。
- 输入:执行过程中的实时证据。
- 输出:可追溯的失败证据包。
报告生成组件
- 位置:
demo/reports/run-<run_id>/report.json、demo/reports/run-<run_id>/report.html - 作用:给出通过率、阻断项、Go/No-Go 判定。
- 输入:步骤结果 + 证据统计。
- 输出:机器可读(JSON)与演示可读(HTML)报告。
修复任务包生成组件
- 位置:
demo/reports/run-<run_id>/fix_plan.json、next_window_prompt.md、standby_prompt.txt - 作用:将"测试失败证据"转成"可直接执行的修复任务"。
- 输入:失败步骤、console、network、trace 路径。
- 输出:根因假设、检查方向、修改方向、验收标准、下一窗口提示词。
稳定性增强组件
- 位置:
src/skills/auto-qa/scripts/run_autoqa.py - 作用:减少"主画面外运行"时的抖动风险,提升演示稳定度。
- 能力:
- 步骤自动重试(默认每步 1 次重试)
- 断点续跑(从失败步骤继续)
- 健康检查(off/on-failure/each-step)
- 失败分类(environment/product/unknown)
门禁断言组件
- 位置:
src/skills/auto-qa/scripts/run_autoqa.py - 作用:将采证数据升级为发布门禁判定,防止"假 GO"。
- 默认规则:
- console
error-> 违规(critical) - 同域 network
4xx-> 违规(critical) - 同域 network
5xx-> 违规(blocker)
- console
- 报告输出:
gateViolationsgateViolationCountsBySeverityriskLevelreleaseDecision(GO / CONDITIONAL_GO / NO_GO)reviewStatus(consistent / needs_inspection)reviewConclusion(复核一致 / 复核需进一步检验)reviewFindings(需进一步检验时的具体项)
Trace 对齐组件
- 位置:
demo/reports/run-<run_id>/step_trace_map.json - 作用:把步骤时间窗与 trace 时间线自动对齐,便于"步骤 -> 证据"快速追溯。
- 输出:每个步骤对应的 trace 事件计数、帧计数、console/API/network 样本。
报告通知组件
- 位置:
src/skills/auto-qa/scripts/run_autoqa.py(运行参数触发) - 作用:自动截取
report.html全页图并发送到聊天频道。 - 规则:
- 传入
--notify-channel时触发。 - 未传
--notify-target时,自动从openclaw status --json最近会话推断目标(当前频道优先)。
- 传入
一期范围(防跑偏)
- 仅网页 P0 场景(3-5 条关键路径)
- 证据四件套:
screenshot + console + network + trace - 交付最小集合:
report.jsonreport.htmlfix_plan.jsonnext_window_prompt.mdstandby_prompt.txt
目录约定
demo/
scenarios/
mvp_smoke.json
_generated/ ← agent 智能生成的临时 scenario 存放目录
artifacts/
run-<run_id>/
steps.json
console.json
network.json
health_checks.json
trace.zip
screenshots/
reports/
run-<run_id>/
report.json
report.html
report_full.png
step_trace_map.json
fix_plan.json
next_window_prompt.md
standby_prompt.txt
场景 JSON(最小格式)
{
"name": "MVP Smoke",
"autoScreenshot": true,
"continueOnFailure": false,
"steps": [
{ "id": "step-001", "action": "open", "url": "https://example.com", "expected": "页面可访问" },
{ "id": "step-002", "action": "wait", "text": "Example Domain", "expected": "标题出现" },
{
"id": "step-003",
"action": "assert_text_contains",
"value": "Example Domain",
"expected": "正文包含关键字"
}
]
}
场景 JSON(门禁规则示例)
{
"name": "WeHub Smoke",
"gates": {
"enabled": true,
"minPassRate": 95,
"console": {
"errorAsFailure": true,
"ignoreMessagePatterns": ["known harmless error"]
},
"network": {
"sameOrigin4xxAsFailure": true,
"sameOrigin5xxAsFailure": true,
"thirdParty5xxAsFailure": false,
"ignoreUrlPatterns": ["/favicon.ico"],
"ignoreStatusCodes": [401]
}
},
"steps": []
}
场景 JSON(动作展示配置示例)
{
"name": "Visual Demo",
"visual": {
"enabled": true,
"focusTabBeforeStep": true,
"preActionWaitMs": 220,
"postActionWaitMs": 420,
"highlightBeforeClick": true,
"highlightBeforeType": true,
"highlightWaitMs": 480
},
"steps": []
}
说明:
focusTabBeforeStep:每步前尽量聚焦受控 tab,减少后台节流导致的观感抖动。preActionWaitMs/postActionWaitMs:动作前后节奏等待,提升"可见点击/跳转"观感。highlightBeforeClick/highlightBeforeType:动作前高亮目标元素。
支持动作(MVP)
opennavigatesnapshotclickhovertypepressbackscrollclick_link_same_originwaitevaluateassert_url_containsassert_text_containsscreenshotnoop
场景 JSON 校验层(安全网)
run_autoqa.py 在加载 scenario 时自动执行 pre-flight 校验:
- JSON 语法:解析失败会报告精确行号/列号
- 必须字段:每个 step 必须含
action字段 - 动作白名单:
action值必须在上述"支持动作"列表内,否则报错并列出全部合法值 - 参数完整性:
open/navigate须含url;click/hover/type须含ref;assert_*须含value
校验在执行前触发,出错时给出明确的 step 索引和原因——不会默默失败。
生成 scenario 时请确保遵守上述约束。id 字段建议保留(格式 step-NNN),缺省时引擎会自动补全。
场景 JSON(探索配置与返回边覆盖)
{
"exploration": {
"enabled": true,
"maxDepth": 3,
"maxChildrenPerNode": 5,
"maxPages": 30,
"maxDurationMinutes": 15,
"sameOriginOnly": true
},
"steps": [
{ "id": "step-010", "action": "click_link_same_origin", "depth": 2 },
{ "id": "step-011", "action": "back", "returnEdge": true, "depth": 2 }
]
}
说明:
depth:步骤所属探索层级(用于覆盖统计)。returnEdge=true:该步骤计入"返回边"覆盖统计(back动作默认计入)。
运行方式
在仓库根目录执行:
python3 src/skills/auto-qa/scripts/run_autoqa.py \
--scenario-id wehub_demo \
--browser-profile openclaw \
--auto-start-browser
执行协议(强约束)
当用户表达"跑 QA / 再测一次 / 做自动回归 / 开始测试"等执行意图时,默认进入直接执行,不先回复"计划确认"。
场景生成优先级(核心规则 — 严格按此顺序执行)
正常流程不使用预设脚本。场景(scenario)应由 agent 智能生成。
优先级 1:用户给了测试要求(自然语言)
用户可能说:"测一下登录功能"、"检查购物车流程"、"用以下用例做自动 QA 测试:……"。
agent 必须:
- 用
openclaw browser open <url>打开目标 - 用
openclaw browser snapshot --interactive --labels扫描页面结构 - 理解用户的自然语言要求,对照页面上实际存在的元素(表单、按钮、链接、输入框等)
- 生成包含用户所有要求的 scenario JSON(每条要求对应具体的 action + expected + assertion)
- 将 scenario JSON 写入
demo/scenarios/_generated/<run-id>.json - 用
--scenario <path> --force-direct-scenario-path执行
严禁忽略用户的任何测试要求。 如果页面上找不到用户要求的元素,在 scenario 中仍要包含该步骤并标注 expected,让执行引擎报告失败——而不是静默跳过。
优先级 2:用户只给了 URL,没有具体要求
agent 必须:
- 用
openclaw browser open <url>打开目标 - 用
openclaw browser snapshot --interactive --labels扫描页面结构 - 分析页面上的所有可交互元素:链接、按钮、表单、输入框、导航菜单等
- 智能生成覆盖以下维度的 scenario JSON:
- 页面可访问性(navigate + assert_url)
- 核心可交互元素(click 按钮、填写表单、点击链接)
- 导航完整性(跳转 + 返回)
- 内容断言(assert_text_contains 关键文案)
- 将 scenario JSON 写入
demo/scenarios/_generated/<run-id>.json并执行 - 执行完成后,BFS 探索引擎自动补充未覆盖的同域页面
生成的 scenario 必须基于实际页面内容,不能凭空猜测。 每个 step 的 ref、url、text 必须来自 snapshot 的真实数据。
优先级 3(极端后备):snapshot 失败或浏览器不可用
仅当以上两种方式都失败时(如浏览器无法启动、目标不可达),才回退到预设脚本:
- 使用注册表默认
defaultScenarioId或generic_template - 必须向用户明确警告:"无法扫描目标,已回退到通用模板,测试覆盖度有限"
预设脚本(scenario-id)仅用于以下场景:
- 用户明确要求使用某个 scenario-id(调试/演示用途)
- 浏览器/网络故障导致无法扫描目标
- 开发者本地调试
频道与目标策略
- 不做固定频道硬编码;频道可变且应随会话上下文切换。
- 未显式指定通知目标时,沿用脚本默认"最近活跃会话自动推断"能力。
汇报口径
- 一旦命中执行意图,先回"已开始执行 + 本次 run 参数摘要",随后立即落地执行。
- 执行完成后再返回报告路径与结论,不把"执行前计划说明"作为前置阻塞。
常用参数:
--scenario <path>:直传 scenario JSON 路径(需配合--force-direct-scenario-path)--scenario-id <id>:从注册表选择场景(仅调试/演示;默认注册表:demo/scenarios/registry.json)--scenario-registry <path>:指定场景注册表路径--scenario-var key=value:覆盖场景变量(可重复;用于模板场景的{{start_url}}/{{start_domain}}等占位)--allow-direct-scenario-path:允许接收--scenario <path>直传请求(默认关闭;默认会回退注册表默认场景)--force-direct-scenario-path:强制执行直传路径(智能生成场景时必须开启)--run-id <id>:手动指定 run id--output-root demo:输出根目录--allow-external-scenario:允许执行仓库demo/scenarios目录外的场景(默认关闭,防误跑)--allow-legacy-scenario:允许执行meta.legacy=true的旧场景(默认关闭)--no-trace:关闭 trace 录制--browser-bin <bin>:指定 OpenClaw 可执行名(默认openclaw)--browser-cmd "<cmd>":指定完整命令前缀(例如pnpm --dir src openclaw)--max-step-retries <n>:每步默认重试次数(默认1)--retry-wait-ms <ms>:重试间隔(默认800)--showcase-recheck:启用复核执行并与主执行结果对照(默认开启)--showcase-continue-on-failure:复核执行遇到差异后是否继续(默认开启)--showcase-max-step-retries <n>:复核执行默认重试次数(默认0)--showcase-retry-wait-ms <ms>:复核执行重试间隔(默认500)--showcase-time-budget-ms <ms>:复核执行时间预算(默认90000,超时即提前收口并继续产出最终报告)--resume-from-step-id <stepId>:从指定步骤开始续跑--resume-from-run-id <runId>:从某次历史失败 run 的首个失败步骤续跑--resume-last-failed:从同一场景最近一次失败 run 自动续跑--health-check-interval <off|on-failure|each-step>:健康检查频率(默认on-failure)--trace-start-mode <auto|immediate|after-first-step>:trace 启动时机(默认auto)--notify-channel <channel>:自动发送报告截图到指定频道(支持discord/.../auto/current,不依赖固定频道名)--notify-target <target>:频道目标(不传则自动推断最近会话目标)--notify-account <id>:可选 accountId--notify-message <text>:可选通知文案--notify-auto-current-channel:未显式指定频道/目标时,自动发到最近活跃会话(默认开启)--notify-max-session-age-ms <ms>:自动推断会话的最大"最近活跃时间"(默认 30 分钟)--cleanup-orphan-openclaw-processes:运行前自动清理多余 OpenClaw 专用 Chrome 进程(默认开启)
最终形态执行约束(当前实现):
- Analysis Pass:无视觉、全量执行、深度固定
3;默认"失败优先截图"(analysisAutoScreenshot=false),保留console/network/trace全量采证。 - Showcase Pass:只跑 Analysis 产出的主链路 + 失败链路,并按 trace 对齐复核。
- Showcase Pass 中若场景步骤是
open,复核执行自动改为同 tabnavigate,避免额外新开 tab。 - 若两次执行不一致:报告标注
needs_inspection,不阻塞本轮交付。 - 若 Showcase 触发时间预算:标注
partial_timeout,并继续生成report.html/report_full.png与回传。
执行超时建议(重要):
- 从外层
exec调脚本时,必须设置timeout >= 900秒。 - 300 秒在"analysis + showcase + trace + 通知"组合下容易被外层提前杀掉,导致看起来"截图回传丢失"。
次佳演示模式(同机不抢主画面)
你关心的"炫酷演示 + 不打断主画面工作"建议这样跑:
python3 src/skills/auto-qa/scripts/run_autoqa.py \
--scenario-id wehub_demo \
--browser-profile openclaw \
--auto-start-browser \
--max-step-retries 1 \
--health-check-interval on-failure
说明:
- 该模式可在同一台机器运行,不要求你一直把测试窗口放在主画面。
- 但若你手动频繁干预同一浏览器窗口,仍会增加波动;重试与健康检查用于兜底并在报告中标注风险归因。
- 在
trace-start-mode=auto下,若首步是open/navigate,trace 会延后到第一步后启动,减少about:blank首屏干扰。 - 默认会生成报告全页截图(
report_full.png,兼容名report_screenshot.png)。 - 默认会尝试把截图和结论自动发到最近活跃的当前会话频道(可用
--no-notify-auto-current-channel关闭)。
可视化演示场景(新增)
- 文件:
/Users/chikakochou/OpenClaw/demo/scenarios/wehub_visual_demo.json - 特点:包含"首屏截图 -> 下翻 -> 下翻后截图 -> 点击跳转同域目标页 -> 返回首页"的强可视化动作链,适合 CTO 演示。
- 场景 ID:
wehub_demo(演示门禁配置,已忽略已知index.css404 噪音) - 严格门禁 ID:
wehub_release(发布判定,不忽略已知 4xx)
运行示例(含自动发当前 Discord 频道):
python3 src/skills/auto-qa/scripts/run_autoqa.py \
--scenario-id wehub_demo \
--browser-profile openclaw \
--auto-start-browser
泛用模板场景(仅调试/演示用)
- 文件:
/Users/chikakochou/OpenClaw/demo/scenarios/generic_visual_template.json - 场景 ID:
generic_template - 模板内置变量占位:
{{start_url}}{{start_domain}}
- 注意:正常流程应使用智能生成(优先级 1/2),此模板仅在极端后备或调试时使用。
- 示例:
python3 src/skills/auto-qa/scripts/run_autoqa.py \
--scenario-id generic_template \
--scenario-var start_url=http://wehub.us/ \
--scenario-var start_domain=wehub.us \
--browser-profile openclaw \
--auto-start-browser
失败到修复闭环
- 失败时自动生成
fix_plan.json:- 问题摘要
- 高概率根因(含置信度)
- 检查方向
- 修改方向
- 验收标准
- 回滚条件
- 自动生成
next_window_prompt.md:可直接贴到下一窗口执行 - 自动生成
standby_prompt.txt:一句确认即可启动修复流程
最近验证样例(2026-02-20)
- runId:
wehub-gate-sample-20260220-v2 - 报告路径:
/Users/chikakochou/.openclaw/workspace/demo/reports/run-wehub-gate-sample-20260220-v2/report.json/Users/chikakochou/.openclaw/workspace/demo/reports/run-wehub-gate-sample-20260220-v2/report.html
- 结果摘要:
releaseDecision = NO_GOriskLevel = high- 门禁违规命中:console error、同域 network 404
Trace 修复记录(2026-02-21)
- 修复范围:
openclaw browser trace start/stop在嵌套子命令下丢失--browser-profile参数的问题。 - 根因:CLI 只读取了一层父命令选项,导致 trace 子命令回退到默认 profile(通常是
chrome)。 - 修复后验证:
trace start/stop在--browser-profile openclaw下可正常生成 trace。- AutoQA run
wehub-trace-fix-20260221-v1已验证tracePath存在且报告无 trace warning。
工程注意事项
- 若
openclaw browser无法连接,请先启动 OpenClaw 网关/浏览器服务。 click/type依赖快照ref,场景需要提供稳定ref或结合wait/evaluate先定位。- 一期先保证可执行和可追溯,不在本阶段引入跨浏览器矩阵和全量性能压测。