Web Fetch Skill
使用无头浏览器(Playwright + Stealth Plugin)抓取指定 URL 的网页内容,并自动转换为 Markdown 格式以便于阅读和进一步处理。
主要特性
- 反爬虫绕过: 集成了
playwright-extra和puppeteer-extra-plugin-stealth,自动处理各种浏览器指纹和自动化特征检测。 - 内容转换: 使用
turndown库将复杂的 HTML 页面转换为简洁的 Markdown 格式。 - 环境模拟: 模拟真实用户视口大小和无头浏览器配置。
使用方法
运行抓取脚本:
cd /Users/wuwei/.openclaw/workspace/skills/web-fetch/scripts
node fetch.js <url>
参数说明
url: 需要抓取的完整网页 URL(包括 http/https)。
示例
# 抓取新浪财经
node fetch.js "https://finance.sina.com.cn/stock/"
# 抓取特定新闻页面
node fetch.js "https://finance.eastmoney.com/a/202403143012345678.html"
输出
脚本将会在控制台输出以下内容:
- 抓取进度说明。
- 页面标题。
- 转换后的 Markdown 正文内容(较长内容会截断)。
依赖
- playwright-extra: 插件化 Playwright 核心。
- puppeteer-extra-plugin-stealth: 提供各种 evasion 策略。
- turndown: HTML 到 Markdown 转换服务。
安装依赖:
cd /Users/wuwei/.openclaw/workspace/skills/web-fetch/scripts
npm install