DocHub

# dochub / 文档工作台 ## 技能简介 dochub 是一个专业的文档知识库管理技能,负责将原始文档初始化为标准 Markdown 格式,提供专业的知识库文档概要与索引,并能根据检索内容分析、汇总并回复用户问题。 ## 支持的文档格式 | 格式 | 状态 | 说明 | |------|------|------| | **.docx** | ✅ 支持 | Word 现代格式 | | **.xlsx** | ✅ 支持 | Excel 现代格式 | | **.doc / .xls / .pdf / .pptx / 其他** | ❌ 不支持 | 请先转换为 .docx 或 .xlsx | > **注意**:dochub 仅支持处理 .docx 和 .xlsx 两种格式,其他格式文档将被跳过并提示用户。 ## 核心功能 ### 1. 初始化(init) 将工作区原始文档转换为标准知识库格式: ``` 原始文档 → raw/ → 安全确认 → 检测不支持的格式 → MD转换(.docx/.xlsx) → 生成知识库概要与索引 ``` **步骤说明:** 1. **安全确认**:询问用户文档是否已脱敏(不含敏感个人信息、机密数据等),必须确认后才继续 2. **移动原始文档**:将所有原始文档统一移动到工作区根目录 `raw/` 文件夹 3. **文件名规范化**:只保留中文、英文、数字及中横线 `-`,其余字符统一替换为 `-` 4. **检测不支持的格式**:扫描非 .docx/.xlsx 文件,如发现则列出并提示用户这些文件将被跳过 5. **MD 文档转换**:使用 `markitdown` 按原目录结构转换为 MD 文档 - 仅支持格式:.docx, .xlsx - 转换前检查目标文件是否存在 - 首次存在时询问用户选择「跳过」或「覆盖」,后续自动应用该选择 6. **生成知识库概要与索引**:生成 `_docs_knowledge_base.md`,包含: - 文档统计概览(总数、大小、分类数) - 分类目录树(可视化结构) - 高频关键词标签云 - 文档详细索引(按分类组织的文件清单) ### 2. 增量更新 将新文档放入 `update/` 目录后,运行增量更新: - **安全确认**:同样需要先确认文档已脱敏 - **检测新增/变更文档** - **检测不支持的格式**:列出非 .docx/.xlsx 文件并提示跳过 - **仅转换未转换或已修改的文件** - **更新知识库概要与索引** ### 3. 检索与问答 支持以下检索方式: - **全文检索**:在 MD 文档中搜索关键词 - **分类检索**:按文档分类查找 - **语义问答**:基于文档内容回答用户问题 ## 使用方式 ### 初始化知识库 ``` 使用 dochub 技能,初始化文档知识库 ``` 或指定工作区: ``` 使用 dochub 技能,初始化 [指定路径] 的文档知识库 ``` ### 增量更新 ``` 使用 dochub 技能,增量更新文档 ``` ### 检索文档 ``` 使用 dochub 技能,检索 [关键词] ``` ### 问答 ``` 使用 dochub 技能,回答:[问题] ``` ## 目录结构 ``` workspace/ ├── raw/ # 原始文档存放目录 ├── _docs_md/ # MD 文档输出目录 ├── _docs_knowledge_base.md # 知识库概要与索引(合并文档) └── update/ # 增量更新目录 ``` ## 依赖工具 - **markitdown** 0.1.5+:MD 转换核心工具 - **python-docx**:Word 文档处理 - **openpyxl**:Excel 文档处理 ## 注意事项 1. **格式限制**:dochub 仅支持 .docx 和 .xlsx 格式,其他格式(.doc/.xls/.pdf/.pptx 等)将被跳过并提示用户 2. **安全确认**:每次初始化或增量更新前,必须确认文档已脱敏 3. **备份原始文档**:初始化会修改文件名和目录结构,建议提前备份 4. **跳过/覆盖选择**:首次遇到重复文件时会询问,后续自动应用该选择 5. **原始文档保留**:转换后保留原始文档作为备份

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "DocHub" with this command: npx skills add longjf25/dochub

dochub / 文档工作台

技能简介

dochub 是一个专业的文档知识库管理技能,负责将原始文档初始化为标准 Markdown 格式,提供专业的知识库文档概要与索引,并能根据检索内容分析、汇总并回复用户问题。

支持的文档格式

格式状态说明
.docx✅ 支持Word 现代格式
.xlsx✅ 支持Excel 现代格式
.doc / .xls / .pdf / .pptx / 其他❌ 不支持请先转换为 .docx 或 .xlsx

注意:dochub 仅支持处理 .docx 和 .xlsx 两种格式,其他格式文档将被跳过并提示用户。

核心功能

1. 初始化(init)

将工作区原始文档转换为标准知识库格式:

原始文档 → raw/ → 安全确认 → 检测不支持的格式 → MD转换(.docx/.xlsx) → 生成知识库概要与索引

步骤说明:

  1. 安全确认:询问用户文档是否已脱敏(不含敏感个人信息、机密数据等),必须确认后才继续
  2. 移动原始文档:将所有原始文档统一移动到工作区根目录 raw/ 文件夹
  3. 文件名规范化:只保留中文、英文、数字及中横线 -,其余字符统一替换为 -
  4. 检测不支持的格式:扫描非 .docx/.xlsx 文件,如发现则列出并提示用户这些文件将被跳过
  5. MD 文档转换:使用 markitdown 按原目录结构转换为 MD 文档
    • 仅支持格式:.docx, .xlsx
    • 转换前检查目标文件是否存在
    • 首次存在时询问用户选择「跳过」或「覆盖」,后续自动应用该选择
  6. 生成知识库概要与索引:生成 _docs_knowledge_base.md,包含:
    • 文档统计概览(总数、大小、分类数)
    • 分类目录树(可视化结构)
    • 高频关键词标签云
    • 文档详细索引(按分类组织的文件清单)

2. 增量更新

将新文档放入 update/ 目录后,运行增量更新:

  • 安全确认:同样需要先确认文档已脱敏
  • 检测新增/变更文档
  • 检测不支持的格式:列出非 .docx/.xlsx 文件并提示跳过
  • 仅转换未转换或已修改的文件
  • 更新知识库概要与索引

3. 检索与问答

支持以下检索方式:

  • 全文检索:在 MD 文档中搜索关键词
  • 分类检索:按文档分类查找
  • 语义问答:基于文档内容回答用户问题

使用方式

初始化知识库

使用 dochub 技能,初始化文档知识库

或指定工作区:

使用 dochub 技能,初始化 [指定路径] 的文档知识库

增量更新

使用 dochub 技能,增量更新文档

检索文档

使用 dochub 技能,检索 [关键词]

问答

使用 dochub 技能,回答:[问题]

目录结构

workspace/
├── raw/                        # 原始文档存放目录
├── _docs_md/                   # MD 文档输出目录
├── _docs_knowledge_base.md     # 知识库概要与索引(合并文档)
└── update/                     # 增量更新目录

依赖工具

  • markitdown 0.1.5+:MD 转换核心工具
  • python-docx:Word 文档处理
  • openpyxl:Excel 文档处理

注意事项

  1. 格式限制:dochub 仅支持 .docx 和 .xlsx 格式,其他格式(.doc/.xls/.pdf/.pptx 等)将被跳过并提示用户
  2. 安全确认:每次初始化或增量更新前,必须确认文档已脱敏
  3. 备份原始文档:初始化会修改文件名和目录结构,建议提前备份
  4. 跳过/覆盖选择:首次遇到重复文件时会询问,后续自动应用该选择
  5. 原始文档保留:转换后保留原始文档作为备份

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

Research

LLM Knowledge Bases

Inspired by a public workflow shared by Andrej Karpathy (@karpathy). From raw research to a living Markdown knowledge base that compounds with every question...

Registry SourceRecently Updated
2330Profile unavailable
General

Markdown To Ppt

Convert Markdown to beautiful presentations and slides. 一键将Markdown文档转换为精美PPT幻灯片,支持多种主题风格,适合商务汇报、教学课件、会议演讲。Markdown to PPT, presentation generator, slides ma...

Registry SourceRecently Updated
481Profile unavailable
Security

Document Sanitizer

Batch desensitize docx/xlsx files via keyword and regex rules, with one-click reversible restoration. Replace sensitive terms (company names, personal info,...

Registry SourceRecently Updated
2240Profile unavailable
Research

Flexible Database Design – SQLite flexible schema & knowledge base skill

Guide agents and users to design and implement a "flexible database" on SQLite that can handle semi-structured, multi-source data. Typical scenarios: persona...

Registry SourceRecently Updated
1.6K0Profile unavailable