article-extract

提取微信公众号、博客、新闻等网页的正文内容,绕过反爬机制,纯文本输出。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "article-extract" with this command: npx skills add caozeal/article-extract

Article Extract

网页文章内容提取工具。支持微信公众号、博客、新闻网站等,输出干净的纯文本内容。

特点

  • ✅ 绕过微信公众号反爬机制
  • ✅ 自动过滤脚本、样式、导航等无关内容
  • ✅ 纯 Python 实现,无需额外依赖
  • ✅ 支持任意网页 URL

安装

无需安装,直接使用 Python 3 运行。

使用

python3 skills/article-extract/scripts/extract.py <url>

示例

# 提取微信公众号文章
python3 skills/article-extract/scripts/extract.py "https://mp.weixin.qq.com/s/xxxxx"

# 提取博客文章
python3 skills/article-extract/scripts/extract.py "https://example.com/blog/post"

# 保存到文件
python3 skills/article-extract/scripts/extract.py "https://mp.weixin.qq.com/s/xxxxx" > article.txt

输出

工具会输出提取的纯文本内容到 stdout,可以通过重定向保存到文件:

python3 skills/article-extract/scripts/extract.py "https://..." > output.txt

原理

  1. 使用标准浏览器 User-Agent 发送 HTTP 请求
  2. 解析 HTML,过滤 <script><style><nav><footer> 等无关标签
  3. 提取正文文本并清理多余空格

限制

  • 需要目标网页允许标准浏览器访问
  • 对于需要登录或特殊权限的页面可能无法提取
  • 某些动态加载的内容(如无限滚动)可能无法完整提取

依赖

  • Python 3.6+
  • 无需第三方库(仅使用标准库)

作者

基于 OpenClaw 社区实践封装

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Charging Ledger

充电记录账本 - 从截图提取充电信息并记录,支持按周、月查询汇总。**快速暗号**: 充电记录、充电账本、充电汇总。**自然触发**: 记录充电、查询充电费用、充电统计。

Registry SourceRecently Updated
General

qg-skill-sync

从团队 Git 仓库同步最新技能到本机 OpenClaw。支持首次设置、定时自动更新、手动同步和卸载。当用户需要同步技能、设置技能同步、安装或更新团队技能,或提到「技能同步」「同步技能」时使用。

Registry SourceRecently Updated
General

Ad Manager

广告投放管理 - 自动管理广告投放、优化ROI、生成报告。适合:营销人员、电商运营。

Registry SourceRecently Updated