web-data-monitor-claw

全网数据探测虾 — 监控竞品官网或特定站点的页面变动,自动巡查并在关键内容变化时发送通知。 适用场景:竞品价格监控、法规更新监控、招聘信息监控、新闻舆情监控、技术文档更新监控。 触发关键词:监控 爬虫 网页变动 竞品监控 价格监控 法规更新 舆情监控 数据采集 网站监控 页面变化 自动抓取 web-data-monitor Use when the user wants to: monitor a website for changes, track competitor prices, watch for regulatory updates, scrape web data periodically, or get notified when specific page content changes.

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "web-data-monitor-claw" with this command: npx skills add tujinsama/web-data-monitor-claw

全网数据探测虾 (web-data-monitor-claw)

监控竞品官网或特定站点的页面变动,7×24 小时自动巡查,第一时间捕获关键变化。

核心工作流

步骤 1:接收监控任务

从用户输入中提取:

  • 目标网址(必填)
  • 监控频率(每小时/每天/每周,默认每天)
  • 监控内容(价格/标题/全文/特定 CSS 选择器)
  • 变动阈值(如价格变动 >5%)
  • 通知方式(飞书/邮件/webhook)

支持两种输入格式:

  1. 结构化:Excel/CSV 文件,含监控任务清单
  2. 自然语言:如"监控 XX 公司官网的产品价格,每天检查一次"

步骤 2:首次快照

使用 scripts/web-monitor.sh 执行首次抓取:

./scripts/web-monitor.sh add-task \
  --url "https://example.com/products" \
  --frequency "daily" \
  --selector ".price" \
  --notify "feishu"

./scripts/web-monitor.sh run-check --task-id "task-001"

首次抓取生成基准版本(Baseline),存储为 JSON 快照。

步骤 3:定期巡查

按设定频率自动访问目标网页,与基准版本对比,识别:

  • 文本变化(新增/删除/修改)
  • 数值变化(价格/数量/百分比)
  • 结构变化(新增/删除页面元素)

步骤 4:变动分析与通知

判断变动是否达到通知阈值:

  • 重要变动 → 立即推送飞书消息
  • 一般变动 → 汇总到日报/周报
  • 微小变动 → 仅记录日志

通知内容包含:变动前/变动后/变动幅度/原始链接。

步骤 5:数据归档

将抓取的原始数据归档至数据仓库,供其他数字员工使用(数据分析虾、报告生成虾等)。

关键设计原则

  • 原始采矿:抓取第一手原始数据,不做主观加工
  • 高频巡查:支持分钟级监控,确保信息实时性
  • 智能过滤:自动过滤广告、噪音、无关变动
  • 反爬虫对抗:模拟真实浏览器行为,避免被封禁

依赖工具

  • curljqpup(HTML 解析)、diff
  • 安装 pup:brew install pupgo install github.com/ericchiang/pup@latest

参考文件

  • 监控规则references/monitoring-rules.md — 不同类型网站的监控策略
  • 提取模板references/extraction-templates.md — 常见网站结构的数据提取模板
  • 反爬虫策略references/anti-detection.md — 应对网站反爬虫机制的策略库

与其他虾的协作

上下游虾名数据流向
下游data-cleaning-claw原始数据 → 清洗后提供给分析类员工
下游compliance-archive-claw监控到新法规时自动归档
下游cross-platform-messenger-claw变动通知推送到多个平台
下游auto-data-analysis-claw抓取的竞品数据用于分析

已知限制

  • 仅支持公开可访问的网页,无法监控需要登录的内容
  • 动态加载(JavaScript 渲染)的页面需使用浏览器模式(较慢)
  • 部分网站有严格的反爬虫机制,可能被封禁 IP
  • 不支持监控移动 App 内的内容

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

gitlab-mr-reviewer

当需要审核 GitLab 合并请求、检查 MR diff 风险、发布 GitLab 审查评论、执行 approve/request changes,或发送 MR 审查通知时使用。

Registry SourceRecently Updated
1490whrime
General

Voice Transcriber Toolkit

Voice-to-Text Transcription Toolkit - 语音识别转文字,支持Whisper/Vosk引擎,批量处理,字幕导出 | Speech recognition & transcription with Whisper/Vosk engines, batch processing, su...

Registry SourceRecently Updated
General

Gigo Lobster Taster

🦞 GIGO · gigo-lobster-taster: 正式试吃模式:跑完整评测,默认上传云端、生成个人结果页并进入排行榜。 Triggers: 试吃我的龙虾 / 品鉴我的龙虾 / lobster taste / lobster taster.

Registry SourceRecently Updated
General

Gigo Lobster Local

🦞 GIGO · gigo-lobster-local: 本地模式:跑完整评测,但不上云、不注册个人结果页,证书二维码回到官网首页。 Triggers: 本地试吃龙虾 / 离线试吃龙虾 / local lobster taste / offline lobster taste.

Registry SourceRecently Updated