Multi-Model Orchestrator
基于 oh-my-codex 的多模型编排系统。集成 superpowers-systematic-debugging(调试纪律)和 frontend-design(UI 品质)。
工作流模式
模式选择指南
| 场景 | 模式 | 说明 |
|---|---|---|
| 需求不明确 | $deep-interview | 先澄清再行动 |
| 需要规划 | $ralplan | Planner/Architect/Critic 共识 |
| 大任务并行 | $team N | N 个 Agent 并行执行 |
| 小任务持续 | $ralph | 单 Agent 持久完成 |
| 遇到 bug/测试失败 | $debug | 四阶段系统化调试(多模型交叉验证) |
| 做前端/UI | $frontend | 多模型协作,UI 品质把关 |
| 全自动 | $autopilot | ralplan → ralph → code-review 循环 |
| 代码审查 | $code-review | 多模型交叉审查(含 UI 审查) |
触发词映射
- "帮我编排" / "多模型并行" → 自动选择
$team或$ralph - "澄清需求" / "我不确定" →
$deep-interview - "规划一下" / "制定计划" →
$ralplan - "并行执行" / "同时做" →
$team - "做完它" / "持续执行" →
$ralph - "有 bug" / "测试失败" / "报错了" / "调试" →
$debug - "做个页面" / "前端" / "UI" / "组件" / "landing page" →
$frontend - "审查代码" / "code review" →
$code-review - "全自动" / "autopilot" →
$autopilot
执行流程
$deep-interview(需求澄清)
1. 收集用户初始需求
2. 识别模糊点和边界条件
3. 生成澄清问题列表
4. 等待用户确认
5. 输出明确的需求文档
$ralplan(共识规划)
1. Planner: 制定实现计划
2. Architect: 从架构角度审查
3. Critic: 识别风险和改进点
4. 达成共识,输出最终计划
$team(并行执行)
1. 将计划拆分为独立子任务
2. 分配给不同模型的 Agent
3. 并行执行(sessions_spawn)
4. 收集结果并汇总
5. 验证质量
$ralph(持久完成)
1. 单 Agent 接收任务
2. 持续执行直到完成
3. 遇到问题自动修复(遵循 $debug 纪律)
4. 输出最终结果
$debug(系统化调试)🆕
集成自 superpowers-systematic-debugging。多模型交叉验证,杜绝"猜-试"循环。
阶段 1: 根本原因调查(Agent A - mimo/mimo-v2.5-pro)
├── 读错误信息、堆栈跟踪、行号、错误码
├── 稳定复现:步骤、频率、环境
├── 检查最近变更:git diff、配置、依赖
├── 追踪数据流:坏值从哪来?谁传入的?
└── 输出: 根本原因报告
阶段 2: 模式分析(Agent B - sub2api-openai/gpt-5.5)
├── 找代码库中类似正常工作的例子
├── 对比参考实现,逐行阅读
├── 识别差异,列出每个不同点
├── 理解依赖和假设
└── 输出: 差异分析
阶段 3: 假设与测试(Agent A + B 交叉验证)
├── 形成假设:"X 是根本原因,因为 Y"
├── 最小化测试:一次只改一个变量
├── 验证:有效→阶段4,无效→新假设
└── 输出: 验证结果
阶段 4: 实现修复
├── 创建失败的测试用例(先写后修)
├── 实现单一修复,不捆绑重构
├── 验证:测试通过?其他测试坏了吗?
├── 如果 3+ 修复失败 → 停止,质疑架构
└── 输出: 修复代码 + 测试
铁律:
- 未经根本原因调查,不许修复
- 3+ 修复失败 → 停止并质疑架构,不要继续猜
- "快速修复" + "以后再调查" = 违反流程
红旗(立即停止,回到阶段 1):
- "先试试改 X 看看行不行"
- "大概是 X,让我修那个"
- "我没有完全理解但这可能行"
- 每个修复在不同地方揭示新问题
$frontend(前端/UI 品质)🆕
集成自 frontend-design。多模型协作,UI 品质把关。
步骤 1: 需求收集
├── Purpose: 界面做什么?
├── Audience: 开发者?终端用户?内部工具?
├── Constraint: 框架已选定?静态?SSR?
└── Aesthetic: 技术风?内容风?交易风?
步骤 2: 架构规划($ralplan)
├── Planner: 页面结构 + 组件拆分
├── Architect: 框架选型 + 性能预算
└── Critic: 可访问性 + 移动端风险
步骤 3: 并行实现($team)
├── Agent 1: 结构/布局(HTML/模板)
├── Agent 2: 样式/主题(CSS/Tailwind)
├── Agent 3: 交互/状态(JS/TS)
└── Agent 4: 动效/细节(微交互)
步骤 4: UI 审查($code-review + frontend-design)
├── 检查 AI 通用美学红线(见下)
├── 移动端 + 触控 + 键盘导航
├── 深色 + 浅色双主题
├── Core Web Vitals + 包大小
└── 输出: UI 审查报告(P0-P3 分级)
AI 通用美学红线(禁止出货):
- Card-grid-of-nothing(圆角卡片网格泛滥)
- 紫粉渐变 CTA / hero
- 无空间理由的毛玻璃
- Lucide/Heroicons 图标撒满每个列表项
- 三栏"Features":图标 + 标题 + 12 字描述
- 居中 hero + "Build [noun] [adverb]" + 两个按钮
- 渐变文字 h1(
from-indigo-500 to-pink-500) - "Trusted by" 灰色 logo 行
- 默认 indigo 强调色
- 非 AI 功能的 "AI shimmer" 加载态
- 常规操作的彩纸/气球动效
- 应内联的 toast 通知
- 首次加载的 newsletter/Cookie 弹窗
硬性默认值(直接出货,用户可覆盖):
- Mobile-first 布局
- 深色 + 浅色双主题同时设计
- 触控目标 >= 44x44px
prefers-reduced-motion降级- Focus-visible 样式(禁止
outline: none) - WCAG AA 对比度
- 真实框架(Astro 6 / SvelteKit 2 / Vite 8 / Next 16 / Tailwind v4)
$code-review(代码审查,增强版)
1. 模型 A(gpt-5.5): 逻辑正确性 + 架构
2. 模型 B(gpt-5.3-codex): 性能 + 安全
3. 模型 C(mimo-v2.5-pro): 可维护性 + 测试覆盖
4. 如果涉及 UI → 自动附加 frontend-design 审查
5. 汇总交叉审查结果
$autopilot(全自动,增强版)
ralplan(共识规划)
→ ralph(持久执行,遇 bug 自动 $debug)
→ code-review(交叉审查,含 UI 审查)
→ 修复反馈循环
模型路由
根据任务类型自动选择最优模型:
- 架构/推理 →
sub2api-openai/gpt-5.5 - 代码生成 →
sub2api-openai/gpt-5.3-codex - 快速执行 →
mimo/mimo-v2.5-pro - 代码审查 →
sub2api-openai/gpt-5.5 - 简单任务 →
sub2api-openai/gpt-5.4-mini - 中文任务 →
local-qwen/gpt-4o - 图像生成 →
sub2api-openai/gpt-image-2 - 调试根因分析 →
sub2api-openai/gpt-5.5(推理能力强) - 调试修复实现 →
sub2api-openai/gpt-5.3-codex(代码生成强) - UI 结构/布局 →
sub2api-openai/gpt-5.5 - UI 样式/主题 →
sub2api-openai/gpt-5.3-codex - UI 交互/动效 →
mimo/mimo-v2.5-pro
子任务模板
通用模板
你是一个专注于 [角色] 的 AI 助手。
## 任务
[具体任务描述]
## 上下文
[相关代码/文件/背景信息]
## 约束
- [具体约束条件]
## 预期输出
[明确的交付物描述]
调试子任务模板
你是 [根因分析师 / 修复实现者]。
## Bug 描述
[症状、错误信息、复现步骤]
## 已知信息
[堆栈跟踪、相关代码、最近变更]
## 任务
阶段 [1/2/3/4]: [具体阶段任务]
## 约束
- 未经根因调查不许提修复方案
- 一次只改一个变量
- 3+ 修复失败必须停止并质疑架构
## 预期输出
- 根因分析报告 / 差异分析 / 假设验证结果 / 修复代码+测试
前端子任务模板
你是前端 [结构工程师 / 样式工程师 / 交互工程师 / UI 审查员]。
## 任务
[具体前端任务]
## 设计约束
- Mobile-first,触控目标 >= 44px
- 深色 + 浅色双主题
- WCAG AA 对比度
- prefers-reduced-motion 降级
- 禁止 AI 通用美学红线(card-grid-of-nothing、紫粉渐变等)
- 真实框架,当前版本
## 预期输出
[组件代码 / 样式文件 / 审查报告]
集成说明
本技能集成两个专项技能的核心方法论:
| 来源 | 集成内容 | 应用模式 |
|---|---|---|
| superpowers-systematic-debugging | 四阶段调试流程、铁律、红旗识别 | $debug 模式 + $ralph/$autopilot` 中的自动调试 |
| frontend-design | UI 品质标准、AI 美学红线、双主题、移动优先 | $frontend 模式 + $code-review 中的 UI 审查 |
详细参考:
- 调试完整流程:
~/.openclaw/skills/superpowers-systematic-debugging/SKILL.md - UI 品质标准:
~/.openclaw/skills/frontend-design/SKILL.md