领域标签体系构建

# SKILL.md - 领域标签体系构建

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "领域标签体系构建" with this command: npx skills add dluolan/label-system

SKILL.md - 领域标签体系构建

构建领域业务标签体系,用于对拆分后的问答对及用户意图打标,配合事项分类体系实现"标签匹配→缩小召回范围→检索重排"的知识检索提升。


使用场景

当用户提供一份包含源知识的 Excel 文件(3个Sheet:信息导出/问答导出/拆分后的知识),要求你:

  1. 基于源知识构建该领域的业务标签体系
  2. 对拆分后的问答对进行打标
  3. 指正拆分不当的知识

核心概念

业务标签

  • 定义:表征知识属于什么业务阶段/场景,回答"这是关于什么业务的问题"
  • 层级:不固定三级,由知识细粒度决定——如果该领域知识集中在某一类场景,可只到二级;如果领域知识覆盖多个阶段/场景,则扩展到三级或更深
  • 本质:为知识打标服务,标签颗粒度要与知识颗粒度匹配

事项分类(独立体系,13类)

  • 定义:表征用户意图是什么问题类型,回答"用户在问什么"
  • 层级:固定13类,不扩展
  • 核心区分:事项分类判断的是咨询内容的类型(材料/流程/时限/渠道等),业务标签判断的是业务阶段
维度业务标签事项分类
本质这是什么业务用户在问什么
层级不固定固定13类
作用匹配业务范畴判断意图类型
扩展随领域增加而扩展不扩展

执行流程

第一步:理解领域背景

在开始打标之前,向用户确认:

  1. 领域名称是什么?
  2. 该领域核心业务有哪些?(如公积金领域=缴存/提取/贷款/转移等)
  3. 有没有已有的领域标签体系可以参考?(如果用户之前构建过类似领域,可以复用结构)

第二步:分析源数据结构

读取 Excel 文件,重点分析以下字段:

Sheet重点字段分析目的
信息导出信息标题、正文内容、信息分类(三级归口)理解源知识覆盖了哪些业务场景
问答导出问答标题、问答答案理解QA对的知识结构
拆分后的知识信息标题、问题、答案分析拆分粒度是否合理,标签是否匹配

分析要点

  • 信息标题 → 反映该知识属于哪个业务环节
  • 正文内容/答案 → 理解知识覆盖的具体场景
  • 信息分类 → 参考已有的分类体系
  • 问句内容 → 判断用户意图,决定打标维度

第三步:构建业务标签体系

根据源知识内容,按以下逻辑构建:

1. 确定二级领域(可选) 如果该领域跨度大(如同时包含"中国公民业务"和"外国人业务"),先按主体区分二级领域。

2. 确定业务阶段(一级标签) 围绕该领域从起点到终点的业务流程阶段划分一级标签。

3. 细化场景标签(二级/三级标签) 在每个业务阶段下,根据知识的具体场景进一步细分。

标签构建原则

原则说明
知识颗粒度决定标签层级如果某一业务阶段的知识高度集中在某一场景,标签到二级即可;如果覆盖多个场景,则扩展到三级
互斥性同一级标签之间应互斥,不重叠
完整性覆盖该领域的主要业务场景,有明确归属的知识都能找到对应标签
可打标性标签颗粒度要与知识颗粒度匹配,确保大多数知识能有明确归属

第四步:打标执行

标准打标规则

窗口信息类问答归类(易错!易打入错误标签!):

问题类型应归入标签
"办理地点/时间/是否支持在线办理"办理流程与查询-窗口与办理点查询
"咨询电话/监督投诉电话"配套服务与咨询-咨询与投诉渠道
"办理时限/承诺时限/法定时限"办理费用与时限-办理时限咨询
"收费标准/收费依据"办理费用与时限-证件收费标准
"需要哪些材料"对应业务阶段的材料准备标签
"服务对象是谁/受理条件是什么"证件申办-申请资格咨询
"办理流程是什么"办理流程与查询-窗口与办理点查询
"如何咨询/如何投诉"配套服务与咨询-咨询与投诉渠道
"审批结果/法律依据"其他问答(兜底)

注意事项

  • 窗口信息不应打入业务主标签(如"签证类型选择""团队旅游签注办理"),而应归入对应窗口/配套标签
  • 中国公民业务和外国人业务的窗口信息,标签前缀不同
  • 同一来源拆分出的窗口信息,应保持归类一致性

打标优先级

  1. 有明确业务归属的 → 打对应业务标签
  2. 窗口信息类 → 按窗口信息归类规则处理
  3. 确实无明确归属的 → 打入"其他问答"兜底

第五步:指正拆分问题

对拆分粒度或内容有问题的知识进行标注:

问题类型处理方式
信息标题与问题内容不匹配指出错误来源
同一信息拆分出过多无区分度问答建议合并(如多个窗口信息逐条拆出)
拆分与源信息正文不对应指出来源核实问题
混入非本领域知识标注应剔除

输出物

1. 标签体系文档

结构:

# [领域]领域标签体系

> 基于源知识文件构建,用于...

## 一、领域划分
## 二、标签体系
### 领域一:XXX
#### 1. 业务阶段A
- 标签1
- 标签2
...
### 领域二:XXX
...
## 三、标签与事项分类的区分说明
## 四、拆分知识校验意见
## 五、标签应用示例

2. 打标结果(Excel)

在原Excel基础上增加"业务标签"列,对每条问答标注对应标签。


常见问题

Q:标签层级是固定三级吗? A:不是。标签层级由知识细粒度决定。如果该领域知识集中在某一类场景,可只到二级;如果覆盖多个阶段/场景,则扩展到三级或更深。参考公积金领域标签体系。

Q:窗口信息和业务标签冲突时以哪个为准? A:窗口信息有独立的归类规则,不应打入业务主标签。例如"外国人签证的办理地点在哪里",应打"窗口与办理点查询",而非"签证与居留办理"。

Q:两个标签体系同时打标吗? A:业务标签和事项分类是独立的两套标签体系,从不同维度对知识进行标注,匹配时也是独立匹配,互不冲突。

Q:知识拆分粒度不合理怎么办? A:在标签体系文档的"拆分知识校验意见"章节中指正,说明问题类型和处理建议。

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

GigaChat (Sber AI) Proxy

Integrate GigaChat (Sber AI) with OpenClaw via gpt2giga proxy

Registry SourceRecently Updated
3600smvlx
General

TencentCloud Video Face Fusion

通过提取两张人脸核心特征并实现自然融合,支持多种风格适配,提升创意互动性和内容传播力,广泛应用于创意营销、娱乐互动和社交分享场景。

Registry SourceRecently Updated
General

TencentCloud Image Face Fusion

图片人脸融合(专业版)为同步接口,支持自定义美颜、人脸增强、牙齿增强、拉脸等参数,最高支持8K分辨率,有多个模型类型供选择。

Registry SourceRecently Updated
General

YoudaoNote News

有道云笔记资讯推送:基于收藏笔记分析关注话题,推送最新相关资讯。支持对话触发与每日定时推送(如早上9点)。触发词:资讯推送、设置资讯推送、生成资讯推送。

Registry SourceRecently Updated
1.5K1lephix