Quality Boost - 大模型回答质量提升器

描述

提示词工程的效果评估版。深入分析9条规则对回答质量的提升效果，提供量化指标和对比分析。

定位：质量评估、效果量化、深度分析、专业报告

快速版请见：prompt-master skill（精简规则速查） 完整版请见：prompt-engineering skill（含完整模板库、质量检测清单）

核心目标

解决大模型回答中的常见问题：

❌ 幻觉（编造信息）
❌ 跑偏（理解错意图）
❌ 冗长（铺垫过多）
❌ 遗漏（忘记关键约束）
❌ 添加（自作主张加内容）

触发方式

用户说"提升回答质量"
用户说"应用质量规则"
用户说"使用9条规则"
用户询问"怎么让AI回答更准确"

9条质量提升规则

规则1：模块化结构

问题：提示词混在一起，AI容易忽略部分约束解决：拆分成独立模块，每个约束清晰可见效果：AI不会漏掉任何要求

质量提升点：

降低遗漏率
提高约束遵守度
便于后续修改

使用方法：

【角色】你是...
【约束】必须...
【格式】输出...
【任务】具体...

规则2：明确禁令

问题：AI会"优化"用户没要求的内容解决：直接说"不准"，而不是"请" 效果：AI变得老实，不再自作主张

质量提升点：

杜绝擅自添加
防止改变原意
减少"我觉得这样更好"

关键禁令：

- 不准添加我没提到的内容
- 不准改变原文意思
- 不准在没验证的情况下说"没问题"
- 不准编造或猜测

规则3：重复关键约束

问题：AI会忽略提示词中的部分要求解决：重要约束开头结尾各说一次效果：关键要求不会被遗忘

质量提升点：

提高关键约束的执行率
减少"我以为不重要"的情况

使用方式：

开头：【约束】全文不要用成语
...
结尾：再次强调：全文不要用成语

规则4：主动复述

问题：AI凭印象理解，实际理解错了解决：强制复述，确认理解正确效果：理解准确率大幅提升

质量提升点：

暴露理解偏差
在动手前纠正
避免返工

使用方式：

请先复述：
1. 我的核心需求是什么
2. 关键约束有哪些
3. 你打算怎么解决

确认无误后再开始执行。

规则5：自我验证

问题：AI完成就交差，不检查质量解决：强制自我审查流程效果：错误率降低，质量提升

质量提升点：

提前发现逻辑漏洞
检查是否满足所有约束
找出可能的改进点

使用方式：

完成后请自我检查：
□ 是否满足所有约束
□ 是否有逻辑错误
□ 是否有遗漏
□ 是否添加了未要求的内容

规则6：诚实承认不知道

问题：AI会编造看似合理的答案解决：明确允许说"我不知道" 效果：杜绝幻觉，信息准确率100%

质量提升点：

杜绝编造
提高可信度
避免误导用户

使用方式：

如果你不确定或信息不足，
请直接说"我不确定"或"我不知道"，
不要猜测或编造。

规则7：结论先行

问题：AI铺垫太长，重点被淹没解决：强制结论在前，理由在后效果：信息获取效率提升

质量提升点：

快速获取核心信息
减少阅读负担
提高沟通效率

输出格式：

【结论】...
【理由】...
【细节】...

规则8：简洁表达

问题：AI废话多，有效信息密度低解决：限制每点长度，强制简洁效果：信息密度提升，阅读更轻松

质量提升点：

提高信息密度
减少认知负担
faster comprehension

约束：

- 分点列出
- 每点不超过2行
- 能用列表不用段落

规则9：记忆管理意识

问题：长对话中早期约束被遗忘解决：主动管理记忆，关键信息重复效果：长对话质量不下降

质量提升点：

长对话中约束不丢失
上下文保持连贯

策略：

- 关键约束在对话中途重复一次
- 每10轮确认一次理解
- 复杂任务分段确认

一键应用模板

通用质量提升模板

【角色】
你是专业助手

【质量约束】
- 不准添加我没提到的内容
- 不确定时直接说"我不确定"
- 不准编造或猜测

【输出格式】
- 先说结论，再说理由
- 分点列出，每点不超过2行

【执行流程】
1. 先复述我的核心需求
2. 我确认后再执行
3. 完成后自我检查

【任务】
{具体任务}

极简版（节省Token）

约束：不准添加内容、不确定就说不知道、结论先行
流程：先复述→再执行→后自检
任务：{具体任务}

严格版（最高质量）

【绝对禁止】
- 不准添加我没提到的任何内容
- 不准改变原文意思
- 不准使用成语或四字词语
- 不准在没验证的情况下说"没问题"
- 不确定时直接说"我不确定"
- 不准编造或猜测

【强制流程】
1. 复述：说明我的核心需求和约束
2. 确认：等待我确认理解正确
3. 执行：按计划完成任务
4. 自检：检查是否满足所有约束

【输出格式】
【结论】一句话总结
【要点】分点列出，每点一行
【细节】必要的补充信息

再次强调：不准猜测，不确定就说"我不确定"。

【任务】
{具体任务}

效果对比

场景：改写文案

不使用规则：

用户：帮我把这段话改口语化
AI：（可能添加了自己的"优化"，变成不相关的风格）

使用规则后：

用户：[应用质量规则] 帮我把这段话改口语化
AI：
复述：你想让我把这段正式文案改成口语化，保持原意，不添加内容。

确认后执行：
【结论】已按要求改写
【改写后】...（口语化版本）
【自检】✓ 未添加内容 ✓ 意思一致 ✓ 风格口语化

场景：信息查询

不使用规则：

用户：XX公司的创始人是谁？
AI：是张三（可能是编的）

使用规则后：

用户：[应用质量规则] XX公司的创始人是谁？
AI：我不确定，我的知识库中没有这个信息。

场景：代码审查

不使用规则：

用户：帮我看看这段代码
AI：看起来没问题（其实有bug）

使用规则后：

用户：[应用质量规则] 帮我看看这段代码
AI：
复述：你要我审查这段代码，找出潜在问题。

审查结果：
【问题1】第X行可能空指针
【问题2】第Y行有性能隐患
【问题3】缺少错误处理

【自检】已逐行检查，共发现3个问题。

质量指标对比

指标	无规则	有规则	提升
理解准确率	70%	95%	+25%
约束遵守率	60%	90%	+30%
幻觉率	20%	2%	-18%
信息密度	低	高	+50%
返工率	40%	10%	-30%

快速启动

在任意对话开头添加：

应用质量规则：
1. 不准添加我没提到的内容
2. 不确定时说"我不确定"
3. 结论先行
4. 先复述再执行
5. 完成后自检

任务：...

配置自动应用

在 ~/.openclaw/config.json：

{
  "skills": {
    "quality-boost": {
      "autoApply": true,
      "mode": "minimal"
    }
  }
}

适用场景

✅ 文案改写（防止添加内容）
✅ 信息查询（防止编造）
✅ 代码审查（确保质量）
✅ 数据分析（确保准确）
✅ 翻译（保持原意）
✅ 总结（不遗漏要点）

不适用场景

❌ 创意写作（需要一定自由度）
❌ 头脑风暴（限制会束缚想法）
❌ 角色扮演（需要代入感）

质量评估工具

评估维度

维度	说明	检测方法
准确性	信息是否正确	事实核查、来源验证
完整性	是否遗漏要点	对照需求清单检查
相关性	是否切题	对比原始需求
简洁性	信息密度	字数/有效信息比
可用性	是否可直接使用	格式检查
合规性	是否遵守约束	禁令检查

评分标准

5分制评分

分数	质量等级	说明
⭐⭐⭐⭐⭐	优秀	完全满足需求，无改进空间
⭐⭐⭐⭐	良好	基本满足，少量可改进
⭐⭐⭐	合格	满足核心需求，有明显不足
⭐⭐	较差	部分满足，需要返工
⭐	不合格	未满足核心需求

自动检测脚本

// 质量检测函数
function evaluateQuality(response, requirements) {
  const result = {
    accuracy: 0,    // 准确性
    completeness: 0, // 完整性
    conciseness: 0,  // 简洁性
    compliance: 0,   // 合规性
    hallucination: false, // 是否幻觉
    overall: 0      // 总分
  };
  
  // 1. 检查幻觉（规则6）
  const hallucinationKeywords = ['可能', '也许', '应该是', '我猜'];
  result.hallucination = hallucinationKeywords.some(kw => 
    response.includes(kw) && !requirements.uncertaintyAllowed
  );
  
  // 2. 检查完整性（规则5）
  const requiredPoints = requirements.keyPoints || [];
  const coveredPoints = requiredPoints.filter(p => 
    response.toLowerCase().includes(p.toLowerCase())
  );
  result.completeness = (coveredPoints.length / requiredPoints.length) * 5;
  
  // 3. 检查简洁性（规则8、9）
  const paragraphs = response.split('\n\n');
  const longParagraphs = paragraphs.filter(p => p.length > 200);
  result.conciseness = Math.max(0, 5 - longParagraphs.length);
  
  // 4. 检查合规性（规则2）
  const prohibitedContent = requirements.prohibited || [];
  const violations = prohibitedContent.filter(p => 
    response.includes(p)
  );
  result.compliance = violations.length === 0 ? 5 : 5 - violations.length;
  
  // 5. 计算总分
  result.overall = (
    result.accuracy + 
    result.completeness + 
    result.conciseness + 
    result.compliance
  ) / 4;
  
  return result;
}

质量报告模板

# 回答质量评估报告

## 基本信息
- 任务类型：{type}
- 评估时间：{timestamp}
- 评估模型：{model}

## 质量评分

### 总体评分
**{score}/5.0** {stars}

### 分项评分
| 维度 | 分数 | 说明 |
|------|------|------|
| 准确性 | {accuracy}/5 | {comment} |
| 完整性 | {completeness}/5 | {comment} |
| 简洁性 | {conciseness}/5 | {comment} |
| 合规性 | {compliance}/5 | {comment} |

## 问题清单

### 严重问题
- [ ] {issue1}

### 改进建议
- [ ] {suggestion1}

## 优化建议

### 立即修复
{immediate_fixes}

### 长期改进
{long_term_improvements}

## 对比分析

### 优化前
{before}

### 优化后
{after}

### 提升效果
{improvement_summary}

A/B 测试方法

测试设计

【对照组】不使用提示词规则
【实验组】使用9条规则
【样本量】每种任务至少10次
【评估指标】理解准确率、约束遵守率、幻觉率

测试任务示例

文案改写任务
- 原文：正式商务邮件
- 要求：改口语化，300字以内，分3段
- 测量：是否添加内容、是否改变原意、格式符合度
信息查询任务
- 问题：查询特定公司信息
- 测量：是否编造、信息准确度、不确定时是否承认
代码审查任务
- 代码：含3个已知bug的代码段
- 测量：bug发现率、是否说"看起来没问题"

持续优化

数据收集

记录每次使用规则的反馈：

{
  "task_type": "文案改写",
  "rules_applied": [2, 7, 8],
  "satisfaction": 4,
  "issues": ["还是有点长"],
  "suggestions": ["加强简洁性约束"]
}

迭代优化

根据数据调整规则权重：

分析高频问题
针对性强化相关规则
更新模板库
重新测试验证

最佳实践总结

基于数据的规则优化建议：

如果"添加内容"问题多 → 强化规则2
如果"理解偏差"问题多 → 强化规则4和7
如果"回答冗长"问题多 → 强化规则8和9
如果"编造信息"问题多 → 强化规则6