data-analysis-workflow

Standardized data analysis workflow integrating data-analysis, statistical-analysis, scientific-visualization and other skills. Provides complete data analysis process from data import to result reporting with 6 stages.

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "data-analysis-workflow" with this command: npx skills add earthwalking/data-analysis-workflow

Data Analysis Workflow

Overview

标准化数据分析工作流,整合多个数据分析技能,提供从数据导入到结果报告的完整流程。

6 Workflow Stages

1. 数据导入与检查 (5-10 分钟)

  • 数据维度检查
  • 变量类型检查
  • 缺失值检测
  • 异常值检测

使用技能: data-analysis, pandas


2. 数据清洗与预处理 (15-30 分钟)

  • 缺失值处理
  • 异常值处理
  • 变量转换
  • 数据标准化

使用技能: data-analysis, pandas


3. 描述统计与探索 (20-40 分钟)

  • 集中趋势(均值、中位数)
  • 离散程度(标准差、范围)
  • 分布形态(偏度、峰度)
  • 相关分析

使用技能: data-analysis, seaborn, exploratory-data-analysis


4. 推断统计分析 (30-60 分钟)

  • 统计检验选择
  • 假设条件检查
  • 执行统计检验
  • 效应量计算

使用技能: statistical-analysis, scipy


5. 可视化呈现 (20-40 分钟)

  • 统计图表(seaborn)
  • 定制图表(matplotlib)
  • 出版级图表(scientific-visualization)

使用技能: seaborn, matplotlib, scientific-visualization


6. 结果报告 (15-30 分钟)

  • APA 格式报告
  • 结果解释
  • 图表整合

使用技能: statistical-analysis, scientific-visualization


Analysis Types

实验数据分析 (experimental)

适用场景:

  • 随机对照试验
  • 组间比较
  • 前后测设计

统计检验:

  • t 检验(独立/配对)
  • ANOVA(单因素/多因素)
  • 卡方检验

可视化:

  • 箱线图
  • 小提琴图
  • 条形图(带误差线)

调查数据分析 (survey)

适用场景:

  • 问卷调查
  • 相关研究
  • 预测模型

统计检验:

  • 相关分析(Pearson/Spearman)
  • 回归分析(线性/逻辑)
  • 因子分析

可视化:

  • 热力图
  • 散点图
  • 直方图

探索性数据分析 (exploratory)

适用场景:

  • 初步数据探索
  • 特征工程
  • 假设生成

统计检验:

  • 描述统计
  • 相关分析

可视化:

  • 配对图(pairplot)
  • 分布图
  • 相关矩阵

Usage

基本使用

# 完整分析流程
python data_analysis_workflow.py --file data.csv --type experimental

# 仅描述统计
python data_analysis_workflow.py --file data.csv --stage 3

# 仅统计检验
python data_analysis_workflow.py --file data.csv --stage 4 --test anova

# 生成可视化
python data_analysis_workflow.py --file data.csv --stage 5 --plot boxplot

高级使用

# 指定输出格式
python data_analysis_workflow.py --file data.csv --output report.md --format APA

# 批量分析
python data_analysis_workflow.py --input-dir data/ --output-dir results/

# 出版级图表
python data_analysis_workflow.py --file data.csv --publication-quality --journal nature

Statistical Tests

t 检验

适用场景: 比较两组均值

假设条件:

  • 正态性
  • 方差齐性
  • 独立性

APA 报告:

进行独立样本 t 检验,结果显示两组之间存在显著差异,
t(58) = 2.45, p = .017, d = 0.63, 95% CI [0.12, 1.14]。

ANOVA

适用场景: 比较三组及以上均值

假设条件:

  • 正态性
  • 方差齐性
  • 独立性

APA 报告:

进行单因素方差分析,结果显示三组之间存在显著差异,
F(2, 87) = 5.67, p = .005, η² = 0.12。

相关分析

适用场景: 评估变量间关系

类型:

  • Pearson 相关(连续变量,正态分布)
  • Spearman 相关(等级变量,非正态)

APA 报告:

Pearson 相关分析显示,变量 X 与变量 Y 呈显著正相关,
r(98) = .45, p < .001, 95% CI [.28, .59]。

Quality Checks

数据质量

指标优秀良好需改进
缺失值<5%5-10%>10%
异常值<1%1-5%>5%
正态性符合近似不符合
方差齐性符合近似不符合

分析质量

指标优秀良好需改进
检验选择完全适当基本适当不适当
假设检查完整部分缺失
效应量包含部分缺失
可视化出版级清晰需改进
报告格式APA 规范基本规范不规范

Best Practices

最佳实践

  1. 先探索后检验

    • 先做 EDA
    • 了解数据特征
    • 再选择统计方法
  2. 检查假设条件

    • 正态性
    • 方差齐性
    • 独立性
  3. 报告效应量

    • 不仅报告 p 值
    • 还要报告效应量
    • 提供置信区间
  4. 可视化呈现

    • 图表清晰
    • 标注完整
    • 符合出版标准

避免错误

  1. 检验误用

    • ❌ 非参数数据用参数检验
    • ✅ 先检查假设条件
  2. 忽略效应量

    • ❌ 只报告 p 值
    • ✅ 报告效应量和 CI
  3. 可视化不当

    • ❌ 3D 饼图
    • ✅ 简洁清晰的图表
  4. 过度解读

    • ❌ 相关=因果
    • ✅ 谨慎解释结果

Integration

与文献搜索配合

literature-search-workflow: 负责文献搜索
data-analysis-workflow: 负责数据分析
paper-writing-workflow: 负责论文写作

与论文写作配合

data-analysis-workflow: 负责数据分析
statistical-analysis: 负责统计检验
scientific-visualization: 负责图表生成
paper-writing-workflow: 负责整合到论文

Examples

示例 1: 实验数据分析

python data_analysis_workflow.py \
  --file experiment_data.csv \
  --type experimental \
  --output experiment_report.md

输出:

  • 数据概览
  • 描述统计表
  • t 检验/ANOVA 结果
  • 箱线图/小提琴图
  • APA 格式报告

示例 2: 调查数据分析

python data_analysis_workflow.py \
  --file survey_data.csv \
  --type survey \
  --output survey_report.md

输出:

  • 样本特征
  • 相关矩阵
  • 回归分析结果
  • 热力图/散点图
  • APA 格式报告

示例 3: 探索性数据分析

python data_analysis_workflow.py \
  --file data.csv \
  --type exploratory \
  --output eda_report.md

输出:

  • 数据概览
  • 缺失值分析
  • 分布可视化
  • 相关分析
  • EDA 报告

References


技能版本: v1.0.0
创建时间: 2026-03-14
维护者: academic-assistant
下次更新: 功能改进时


*高效数据分析,从标准化工作流开始!*📊🔬

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

Research

Business Writing Conflict

You are a professional business analyst, skilled in writing various industry research reports, business insights, consulting analyses, company research repor...

Registry SourceRecently Updated
Research

alias

Use this skill to write complete, formatted academic graduation research papers and projects for the College of Computer Science and Mathematics at Tikrit Un...

Registry SourceRecently Updated
Research

A Stock Analysis Conflict

提供A股实时行情、分时量能分布、主力资金动向分析及持仓盈亏管理,支持沪深北交所股票。

Registry SourceRecently Updated
50Profile unavailable
Research

A Stock Analysis.Bak

提供沪深北交所A股实时行情查询、分时成交量分析、主力资金动态判断及持仓盈亏管理功能。

Registry SourceRecently Updated
60Profile unavailable