Task Assessor
概述
当用户提出任务需求时,快速评估任务的难度等级、预估耗时、资源消耗,并给出清晰的结构化评估报告。
评估框架
任务复杂度等级
| 等级 | 标识 | 说明 | 典型场景 |
|---|---|---|---|
| L1 | 🟢 简单 | 单次操作,5分钟内完成 | 查天气、读文件、发消息 |
| L2 | 🟡 普通 | 需要几步操作,5-30分钟 | 批量重命名、分析单只股票 |
| L3 | 🟠 复杂 | 多步骤或需要判断,30分钟-2小时 | 制作报告、分析多个标的 |
| L4 | 🔴 困难 | 大量数据处理或跨系统操作,2小时以上 | 全量年报整理、多平台同步 |
| L5 | ⚫ 极高 | 需要持续维护或未知领域探索 | 全新系统搭建、未知技术调研 |
评估维度
每个任务从以下4个维度评估:
1. 数据规模 — 多少数据量?(条数、文件数、涉及实体数)
2. 操作复杂度 — 多少步骤?是否有分支判断?
3. 依赖技能 — 需要哪些skill或工具?
4. 时间消耗 — 大概多久?(初估 → 细估)
评估流程
Step 1: 理解任务本质
问自己:
- 用户想要什么最终结果?
- 现有技能能不能覆盖?
- 需要多少数据处理?
Step 2: 确定复杂度等级
数据量 < 100条 → L1-L2
数据量 100-1000条 → L2-L3
数据量 > 1000条 → L3-L4
多步骤(>3步) → +1级
涉及外部API/跨系统 → +1级
需要判断/决策 → +1级
Step 3: 估算时间与成本
| 复杂度 | 时间估算 | Token消耗 |
|---|---|---|
| L1 | <5分钟 | <10k |
| L2 | 5-30分钟 | 10k-50k |
| L3 | 30分钟-2小时 | 50k-200k |
| L4 | 2-8小时 | 200k-500k |
| L5 | 8小时以上 | >500k |
Step 4: 输出评估报告
标准格式:
## 📋 任务评估报告
**任务:** [简述]
**复杂度:** L[X] [等级名称]
### 规模数据
- 数据量:
- 涉及范围:
### 难度分析
[分析难点在哪里]
### 预估耗时
- 初估:[时间]
- 细估:[时间]
### 资源消耗
- Token估算:[X]k-[X]k
- 成本估算:$X.XX
### 所需技能
- 已有:
- 需要补充:
### 执行建议
[是否建议分批、如何优化]
### ⚠️ 风险提示
[可能的卡点或问题]
快速查表
| 用户需求 | 默认等级 | 典型耗时 |
|---|---|---|
| "帮我查天气" | L1 | <1分钟 |
| "帮我分析贵州茅台" | L2 | 5-15分钟 |
| "帮我做个PPT" | L3 | 30-60分钟 |
| "整理所有A股年报" | L5 | 数天-数周 |
| "给我解释这个概念" | L1 | <5分钟 |
| "帮我写个方案" | L3 | 30-120分钟 |
特殊规则
执行前检查(⚠️ 重要)
任务发布前,必须先做难度检查:
用户发布任务
↓
评估任务难度等级
↓
判断等级
┌─────────────────────────┐
│ L1 或 L2 │
│ → 直接执行,不需要确认 │
└─────────────────────────┘
↓
┌─────────────────────────┐
│ L3、L4 或 L5 │
│ → 先输出评估报告 │
│ → 然后询问确认: │
│ "这个任务难度为L[X], │
│ 预计耗时[X],成本约$XX,│
│ 是否继续执行?" │
└─────────────────────────┘
示例:
用户说"帮我整理所有A股年报"
→ 先评估:L5(极高难度)
→ 输出评估报告
→ 询问:
"这个任务难度为L5(极高),预计耗时数天,
成本$3以上,建议分批执行。
是否继续?"
用户确认后才开始执行
当数据规模不明确时
先给出一个范围估算,然后问用户确认具体规模:
"初估L3,但需要确认:你说的'所有数据'大概是多少条?"
当任务涉及多个子任务时
拆解为独立评估,汇总给出总评:
"这个任务可以拆成3个子任务:
① 数据清洗(L2)
② 格式转换(L3)
③ 报告生成(L2)
整体难度:L3,耗时约1小时"
当用户要求"顺便做一下"时
温和指出隐性工作量:
"这个'顺便'其实涉及:X步骤、Y数据量,可能比主任务还复杂"
参考资料
详细评估方法论和案例 → 见 references/assessment-methodology.md
评估报告模板 → 见 references/assessment-template.md
常见任务基准数据 → 见 references/task-benchmarks.md