dochub / 文档工作台
技能简介
dochub 是一个专业的文档知识库管理技能,负责将原始文档初始化为标准 Markdown 格式,提供专业的知识库文档概要与索引,并能根据检索内容分析、汇总并回复用户问题。
支持的文档格式
| 格式 | 状态 | 说明 |
|---|---|---|
| .docx | ✅ 支持 | Word 现代格式 |
| .xlsx | ✅ 支持 | Excel 现代格式 |
| .doc / .xls / .pdf / .pptx / 其他 | ❌ 不支持 | 请先转换为 .docx 或 .xlsx |
注意:dochub 仅支持处理 .docx 和 .xlsx 两种格式,其他格式文档将被跳过并提示用户。
核心功能
1. 初始化(init)
将工作区原始文档转换为标准知识库格式:
原始文档 → raw/ → 安全确认 → 检测不支持的格式 → MD转换(.docx/.xlsx) → 生成知识库概要与索引
步骤说明:
- 安全确认:询问用户文档是否已脱敏(不含敏感个人信息、机密数据等),必须确认后才继续
- 移动原始文档:将所有原始文档统一移动到工作区根目录
raw/文件夹 - 文件名规范化:只保留中文、英文、数字及中横线
-,其余字符统一替换为- - 检测不支持的格式:扫描非 .docx/.xlsx 文件,如发现则列出并提示用户这些文件将被跳过
- MD 文档转换:使用
markitdown按原目录结构转换为 MD 文档- 仅支持格式:.docx, .xlsx
- 转换前检查目标文件是否存在
- 首次存在时询问用户选择「跳过」或「覆盖」,后续自动应用该选择
- 生成知识库概要与索引:生成
_docs_knowledge_base.md,包含:- 文档统计概览(总数、大小、分类数)
- 分类目录树(可视化结构)
- 高频关键词标签云
- 文档详细索引(按分类组织的文件清单)
2. 增量更新
将新文档放入 update/ 目录后,运行增量更新:
- 安全确认:同样需要先确认文档已脱敏
- 检测新增/变更文档
- 检测不支持的格式:列出非 .docx/.xlsx 文件并提示跳过
- 仅转换未转换或已修改的文件
- 更新知识库概要与索引
3. 检索与问答
支持以下检索方式:
- 全文检索:在 MD 文档中搜索关键词
- 分类检索:按文档分类查找
- 语义问答:基于文档内容回答用户问题
使用方式
初始化知识库
使用 dochub 技能,初始化文档知识库
或指定工作区:
使用 dochub 技能,初始化 [指定路径] 的文档知识库
增量更新
使用 dochub 技能,增量更新文档
检索文档
使用 dochub 技能,检索 [关键词]
问答
使用 dochub 技能,回答:[问题]
目录结构
workspace/
├── raw/ # 原始文档存放目录
├── _docs_md/ # MD 文档输出目录
├── _docs_knowledge_base.md # 知识库概要与索引(合并文档)
└── update/ # 增量更新目录
依赖工具
- markitdown 0.1.5+:MD 转换核心工具
- python-docx:Word 文档处理
- openpyxl:Excel 文档处理
注意事项
- 格式限制:dochub 仅支持 .docx 和 .xlsx 格式,其他格式(.doc/.xls/.pdf/.pptx 等)将被跳过并提示用户
- 安全确认:每次初始化或增量更新前,必须确认文档已脱敏
- 备份原始文档:初始化会修改文件名和目录结构,建议提前备份
- 跳过/覆盖选择:首次遇到重复文件时会询问,后续自动应用该选择
- 原始文档保留:转换后保留原始文档作为备份