行业定义与高信度生成系统
任务目标
本 Skill 用于根据用户输入的任意行业/产品种子词,通过多轮检索、清洗、结构化生成和质量自检,输出符合行业标准、数据可溯源、格式统一的行业定义报告。
核心能力
- 命名归并与消歧义:将非标准称谓映射为标准化名称
- L1-L5层级属性判定:准确归类并锁定市场规模测算口径
- 多源并行检索:支持知识库、API、网页搜索三类检索
- 信息清洗与去重:剔除商业软文,保留高信度内容
- 结构化生成:严格按照四维结构撰写定义
- 质量自检:四维度评分与自动修正
触发条件
当用户需要:
- 为特定行业、产品、技术生成标准化行业定义
- 生成可溯源的行业研究报告
- 进行行业分类和层级判定
- 获取高信度的行业统计数据口径
操作步骤
阶段1:命名归并与消歧义
- 检查种子词是否为缩写、俗称(如"eVTOL"、"HUD")
- 如有必要,映射为国家标准全称(如"电动垂直起降飞行器"、"抬头显示器")
- 处理多义词:通过上下文判断或向用户提问确认具体指代
- 输出标准化名称
阶段2:L1-L5层级属性判定
- 根据 L1-L5分类规范 判定词条所属层级
- 明确该层级的命名强制规范和市场规模测算口径
- 输出分类层级和统计口径说明
- 附带判定理由
阶段3:检索路由策略制定
- 根据词条属性(层级、行业属性)规划检索路径:
- 强监管/合规词条 → 优先检索国家标准知识库和监管机构文件
- 硬核技术/装备词条 → 优先检索专利库和招股说明书
- 新兴消费/业态词条 → 优先检索行业协会白皮书和头部券商研报
- 生成下游任务清单:
- 核心本体界定(属+种差)
- 核心理化参数/工作原理
- 应用场景与病理/功能逻辑
- 统计口径边界
阶段4:执行并行检索与信息清洗
- 调用
scripts/search_router.py并行执行三类检索 - 调用
scripts/info_cleaner.py清洗检索结果:- 剔除商业软文中的溢美之词(如"遥遥领先"、"颠覆性")
- 数值硬校验,确保关键参数与原文一致
- 合并去重,保留高信度内容
阶段5:结构化生成
- 参考 四维结构模板 撰写定义
- 严格遵循写作约束,将四维结构融合为一个自然段落:
- 核心本体界定:首句明确该词条在广义分类学中的归属(属概念),使用"对比与排除法"指出其差异化核心特征(种差)
- 技术原理与理化属性(简洁性约束):压缩为一句话概括,仅保留最核心的技术特征和关键参数(如CAS号、熔点、核心性能指标),避免冗长的技术细节描述
- 病理/功能与应用场景:遵循"疾病成因/痛点-靶向受众-解决手段"的逻辑闭环,论述其双向或多维应用价值
- 边界划定与统计口径:使用"包含"与"不包含"的强制性谓词进行排他性界定。如果词条为L4产品级,必须声明其市场规模按"终端总消费规模/销量"计算
- 在定义内容中,每个关键论点标注编号标记(如[1][2][3]),对应后续溯源来源列表
- 关键论点范围:技术参数、法规标准引用、行业共识性结论(不包含市场规模数据)
- 整合为一个流畅的自然段落,逻辑连贯,表述清晰
- 单独列出溯源来源部分,按编号列出所有来源的链接
阶段6:自我评估与修正
- 调用
scripts/quality_checker.py进行质量评分 - 四个维度评分(满分100):
- 有根据性(40分):所有关键陈述是否有明确来源
- 相关性(20分):内容是否紧密围绕种子词
- 结构合规性(20分):是否严格遵循四维结构
- 可解释性(20分):表述是否清晰,无歧义
- 若总分≥85,输出最终结果
- 若总分<85,根据修改指令返回阶段4或阶段5进行修正
资源索引
- 必要脚本:
- scripts/search_router.py - 检索路由与执行,支持多源并行检索
- scripts/info_cleaner.py - 信息清洗与去重,数值硬校验
- scripts/quality_checker.py - 质量评分与校验,四维度自动化评分
- 领域参考:
- references/l1-l5-classification.md - L1-L5层级分类详细规范
- references/four-structure-template.md - 四维结构写作模板与示例
- references/quality-assessment.md - 质量评估标准与评分细则
- references/source-tracing.md - 溯源标注规范与可信来源清单
注意事项
- 禁止使用"也许、大概、可能"等模糊词汇
- 禁止编造数据,所有数据必须有明确来源
- 禁止使用营销话术(如"强大的"、"卓越的")
- 所有数值(年份、百分比、技术参数)必须原样保留,不得近似或修改
- 技术原理简洁性:技术原理部分必须压缩为一句话,仅保留最核心的技术特征和关键参数
- 溯源标注分离:在定义内容中使用编号标记(如[1][2][3]),在"溯源来源"部分单独列出所有来源的链接
- 多轮交互:在阶段1无法确定词义时,必须向用户提问澄清
输出格式
最终输出采用以下Markdown结构:
## [标准化后的词条名] 定义报告
**分类层级**:[L1-L5] – [判定理由简述]
**统计口径**:[绝对数量约束描述]
### 定义内容
[一个自然段落,融合以下内容:
1. 核心本体界定(属+种差)
2. 技术原理与理化属性(保留关键数值)
3. 应用场景与价值(痛点-受众-方案)
4. 边界与口径(包含/不包含/市场规模计算方式)]
### 溯源来源
[按关键论点列出的溯源链接列表]
---
*报告生成时间:YYYY-MM-DD*
使用示例
示例1:技术装备类词条
- 功能说明:为"HUD"生成标准化定义报告
- 执行方式:混合(智能体主导流程,脚本辅助检索和质量检查)
- 关键步骤:
- 映射为"抬头显示器"
- 判定为L4产品级
- 优先检索专利库和技术文档
- 生成四维结构定义
- 质量评分修正
示例2:强监管类词条
- 功能说明:为"特医食品"生成高信度定义报告
- 执行方式:混合
- 关键步骤:
- 映射为"特殊医学用途配方食品"
- 判定为L3行业级
- 优先检索国家标准知识库和监管机构文件
- 严格数值校验和溯源
- 质量评分≥85分后输出
示例3:新兴消费类词条
- 功能说明:为"eVTOL"生成产业定义报告
- 执行方式:混合
- 关键步骤:
- 映射为"电动垂直起降飞行器"
- 判定为L4产品级
- 优先检索行业协会白皮书和券商研报
- 生成完整四维结构定义
- 溯源标注和质量校验