fundreport-scrape

基金月报信息提取。支持文本+OCR 双重提取,自动处理双月对比。从 PDF 月报提取数据并填充 Excel 模板。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "fundreport-scrape" with this command: npx skills add imkiiki/fundreport-scrape

基金月报信息提取

上传 Excel 模板和 PDF 月报,AI 自动提取数据(文本+OCR)并生成对比 Excel。


🌟 技能亮点

  • 文本+OCR 双重提取 - 图表数据不遗漏,识别准确率 95%+
  • 双月自动对比 - 一次处理两个月份,生成完整对比数据
  • 智能日期解析 - 支持 YYYYMM 和 YYMM 格式,自动补全年份
  • 批量处理 - 一次处理 10+ 只基金,节省 99% 时间

⚙️ 功能

功能说明
核心指标提取久期、到期收益率 (YTM)、基金规模
分布数据提取行业分布、地区分布、信用评级分布
模板保持保持 Excel 原有样式、公式、数据类型
智能匹配字段名模糊匹配,适应不同表述方式
自动分类识别基金名称和日期,智能分 Sheet

📥 输入

类型说明要求
Excel 模板用户自定义格式文件名:互认基金月度更新_YYYYMMvsYYYYMM.xlsx
PDF 月报基金月度报告支持文本/图表/扫描版,文件名含月份(如 华夏 2601.pdf

📤 输出

文件说明
互认基金月度更新_YYYYMMvsYYYYMM_最终版.xlsx包含上月(列 4)和本月(列 6)的完整对比数据

提取内容:

  • 核心指标:久期、YTM(两月对比)
  • 分布数据:行业、地区、信用评级(两月对比)
  • 其他:十大持仓、派息记录等

🚀 快速开始

1️⃣ 安装依赖(首次使用)

# 系统工具
yum install -y tesseract tesseract-langpack-chi_simp poppler-utils

# Python 包
pip install pdf2image Pillow opencv-python-headless

2️⃣ 准备文件

工作目录/
├── 模板/
│   └── 互认基金月度更新_202512vs202601.xlsx
├── 月报数据/
│   ├── 202512/    # 上月 PDF
│   │   ├── 华夏 202512.pdf
│   │   └── 南方东英 202512.pdf
│   └── 202601/    # 本月 PDF
│       ├── 华夏 2601.pdf
│       └── 南方东英 2601.pdf

3️⃣ 运行处理

cd ~/.agents/skills/fundreport-scrape

python3 scripts/auto_update_two_months.py \
  "/path/to/互认基金月度更新_202512vs202601.xlsx" \
  "/path/to/月报数据/202512/" \
  "/path/to/月报数据/202601/" \
  "/path/to/互认基金月度更新_202512vs202601_最终版.xlsx"

4️⃣ 查看结果

输出文件包含:

  • ✅ 上月数据(列 4):202512
  • ✅ 本月数据(列 6):202601
  • ✅ 自动对比:久期、YTM、行业分布等

📁 文件结构

fundreport-scrape/
├── SKILL.md                  # 技能说明
├── SECURITY_REVIEW.md        # 安全评估报告
├── _meta.json                # 元数据
├── requirements.txt          # Python 依赖
├── scripts/
│   ├── auto_update_two_months.py # ⭐ 双月处理(推荐)
│   ├── auto_update_ocr.py       # OCR 增强版
│   └── install_ocr_deps.sh      # 依赖安装脚本
└── references/
    ├── extraction_templates.json  # 提取模板配置
    ├── ocr_rules.md               # OCR 识别规则
    ├── field_mapping.md           # 字段映射规则
    ├── template_learning.md       # 模板学习规则
    ├── batch_processing.md        # 批量处理规则
    └── interaction_rules.md       # 交互规则

📋 脚本说明

脚本用途推荐使用
auto_update_two_months.py双月对比处理⭐⭐⭐ 推荐
auto_update_ocr.py单月 OCR 处理⭐⭐ 备选
install_ocr_deps.sh一键安装依赖⭐⭐⭐ 首次使用

❓ 常见问题

Q1: OCR 识别准确率低?

A: 确保 PDF 清晰度足够,建议:

  • 使用 300 DPI 以上的 PDF
  • 避免模糊或压缩过度的文件
  • 图表数据建议对照 PDF 手动验证

Q2: 日期解析错误?

A: 检查文件名格式:

  • Excel 文件名必须包含 YYYYMMvsYYYYMM
  • PDF 文件名应包含月份信息(如 2601202601

Q3: 部分基金数据未提取?

A: 可能原因:

  • PDF 中基金名称与模板不匹配
  • 数据以复杂图表形式存在
  • 建议查看日志中的"未匹配"提示

📝 更新日志

v1.0.0 (2026-03-14)

核心功能:

  • ✅ 文本+OCR 双重提取,支持图表数据识别
  • ✅ 双月对比处理,自动生成对比数据
  • ✅ 智能日期解析,支持 YYYYMM 和 YYMM 格式
  • ✅ 自动年份补齐(2601 → 202601)
  • ✅ 从 Excel 文件名解析对比月份
  • ✅ 批量处理 10+ 只基金
  • ✅ 保持 Excel 原有样式和公式

技术特性:

  • ✅ Tesseract OCR 引擎(中文+英文)
  • ✅ pdfplumber 文本提取
  • ✅ OpenCV 图像预处理
  • ✅ 自动基金匹配和分类

系统依赖:

  • Tesseract OCR 5.x + 中文语言包
  • Poppler-utils(PDF 转图片)
  • Python 3.8+

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Web to PDF

Convert a web page to PDF, especially web-based slide decks and presentations (reveal.js, impress.js, custom JS slideshows, scroll-based decks). Use when the...

Registry SourceRecently Updated
2320Profile unavailable
General

📝 文档处理大师

上传任意文档,智能提取关键信息、生成摘要。无需API Key,安装即用。

Registry SourceRecently Updated
390Profile unavailable
General

📝 文档摘要大师

上传长文档/文章/PDF/合同,自动生成结构化摘要、关键条款提取、执行清单。支持20+种摘要格式。安装即用,无需API Key。

Registry SourceRecently Updated
400Profile unavailable
General

Logics-Parsing阿里文档解析

阿里文档智能解析工具 - 将PDF/图片转结构化HTML。支持复杂布局、公式识别、化学结构、代码块、流程图、乐谱等。

Registry SourceRecently Updated
590Profile unavailable