data-analysis-sql

大数据开发工程师级数据分析与SQL技能。(1)多数据引擎SQL编写(Hive/SparkSQL/Presto/ClickHouse/Doris/MySQL/PG/BigQuery)。(2)复杂SQL改造调试与性能优化。(3)数仓建模(ODS/DWD/DWS/ADS)维度设计/SCD变更。(4)数据探查/指标设计/ETL管线编排。(5)数据质量检测与异常分析。(6)SQL改写(方言迁移/语法适配)。(7)UDF/UDTF开发规范。(8)表结构文档自动生成与迁移支持。(9)知识库目录生成与维护(schema/metrics/relations/enums)。触发:写SQL/改SQL/数仓建模/ETL/SQL优化/数据质量/指标设计/整理文档/生成md/迁移文档/知识库

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "data-analysis-sql" with this command: npx skills add whiskeyforsun/data-analysis-sql

data-analysis-sql

大数据开发工程师技能,专注于数据分析、SQL 开发、数仓建模和知识库维护。


核心工作流

写 SQL

  1. 澄清需求 — 确认指标定义、数据源、时间口径、排除逻辑、输出格式
  2. 确认数据源 — 参考 references/multi-engine.md 选择目标引擎,参考 references/schema-guide.md 理解表结构
  3. 分层设计 — 判断放在哪层(ODS/DWD/DWS/ADS),避免跨层直接查询
  4. 编写 SQL — 按 references/sql-guide.md 规范编写,优先用 CTE
  5. 安全检查 — 按 references/join-rules.md 逐项过检查清单(tenantkey / del_flag / 防零 / 类型兼容)
  6. 性能评估 — 检查数据倾斜、JOIN 爆炸因子、全表扫描风险
  7. 验证口径 — 与现有报表或指标交叉验证

改 SQL

  1. 理解原 SQL 意图(画出数据流:读哪张表 → 做什么计算 → 输出什么)
  2. 找到需修改的部分(口径?字段?条件?逻辑?)
  3. 改完整体走查:JOIN 方向、NULL 处理、分母防零、边界日期
  4. 对比旧 SQL 与新 SQL 输出差异(样本数据验证)

数仓建模

参考 references/schema-guide.md

  • 确定主题域 → 选择事实表/维度表类型 → 设计拉链/快照/累计表
  • 维度退化、缓慢变化维(SCD)处理
  • 命名规范、分层规范

ETL 管线

参考 references/pipeline-patterns.md

  • 全量/增量/CDC 策略选择
  • 任务依赖编排、故障恢复
  • 数据回溯与重刷机制

数据质量

参考 references/data-quality.md

  • 空值率、重复率、波动检测
  • 端到端数据探查流程
  • 异常数据识别与处理

业务指标设计

参考 references/business-metrics.md

  • 指标设计标准流程(7问)
  • 交付准时率、Flow Time、需求缺陷密度、用例通过率完整 SQL 模板
  • 按租户/项目维度的统一扩展模式
  • 指标公式模板

SQL 踩坑修复

参考 references/sql-pitfalls.md

  • 时间字段毫秒时间戳处理
  • 关联表无 tenantkey 的处理
  • PostgreSQL ROW_NUMBER 替代 Oracle KEEP
  • CTE 别名与列别名冲突解决
  • del_flag 过滤遗漏检查
  • 防踩坑检查清单

知识库目录生成与维护

参考 references/knowledge-base.md

  • 按领域划分目录结构(schema / metrics / relations / enums)
  • 从 xlsx 批量解析表结构、指标 SQL、枚举值,生成 Markdown 文档
  • 从 SQL 自动提取表关联关系,生成 relations.md
  • README 总索引自动维护

文档自动生成与迁移

参考 references/doc-guide.md

  • 交互式生成表结构 Markdown 文档
  • 从用户输入的表结构文本自动解析并生成文档
  • SQL 摘要提取(数据源、CTE、过滤条件、输出字段)
  • 完整迁移文档打包生成(表结构 + SQL 清单)
  • 触发词:整理文档、生成 md、迁移文档、沉淀一下

工具脚本

脚本用途
scripts/sql_formatter.pySQL 格式化,统一风格
scripts/sql_diff.py两段 SQL 逻辑对比,输出差异摘要
scripts/doc_generator.py表结构文档自动生成,支持交互式/API调用

多引擎参考

引擎适用场景参考
Hive / SparkSQL离线大宽表、数仓批处理references/multi-engine.md
Presto / Trino跨源联邦查询、Ad-hoc 分析references/multi-engine.md
ClickHouse高并发实时 OLAP,近实时写入references/multi-engine.md
Doris / StarRocks高并发多表 JOIN 的 OLAPreferences/multi-engine.md
MySQL / PostgreSQLOLTP 业务库、中等规模分析references/sql-guide.md
BigQuery云原生大表、Serverless SQLreferences/multi-engine.md

References 索引

文件内容
references/sql-guide.mdSQL 编写规范(CTE/命名/注释/格式)
references/join-rules.md关联规则(tenantkey/del_flag/自定义字段/防零/ROW_NUMBER)
references/sql-pitfalls.md8类踩坑记录 + 防踩坑检查清单
references/business-metrics.md业务指标设计模板与完整 SQL
references/schema-guide.md数仓建模规范(ODS/DWD/DWS/ADS)
references/multi-engine.md多引擎方言差异与适配
references/pipeline-patterns.mdETL 管线编排模式
references/data-quality.md数据质量检测规范
references/data-analysis-patterns.md数据分析常用模式
references/knowledge-base.md知识库目录生成与维护规范
references/doc-guide.md文档自动生成与迁移指南

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

Coding

Cloudflare Manager

Manage Cloudflare DNS records, Tunnels (cloudflared), and Zero Trust policies. Use for pointing domains, exposing local services via tunnels, and updating in...

Registry SourceRecently Updated
Coding

Node Red Manager

Manage Node-RED instances via Admin API or CLI. Automate flow deployment, install nodes, and troubleshoot issues. Use when user wants to "build automation", "connect devices", or "fix node-red".

Registry SourceRecently Updated
Coding

Yt Dlp

A robust CLI wrapper for yt-dlp to download videos, playlists, and audio from YouTube and thousands of other sites. Supports format selection, quality control, metadata embedding, and cookie authentication.

Registry SourceRecently Updated
Coding

Daily Dev Agentic

daily.dev Agentic Learning - continuous self-improvement through daily.dev feeds. Use when setting up agent learning, running learning loops, sharing insights with owner, or managing the agent's knowledge base. Triggers on requests about agent learning, knowledge building, staying current, or "what have you learned".

Registry SourceRecently Updated