Novel Scraper - 小说抓取工具
版本说明:novel-scraper 提供两个版本,根据需求选择使用。
📦 版本对比
| 特性 | v1.4.0(生产版) | V5(智能版) |
|---|---|---|
| 章节号解析 | URL ID 推算 | 标题提取 ✅ |
| 分页检测 | ❌ 无 | ✅ 自动 ✅ |
| 分页补全 | ❌ 无 | ✅ 自动(最多 5 页)✅ |
| 非小说跳过 | ❌ 无 | ✅ 智能判断 ✅ |
| 质量验证 | ❌ 无 | ✅ 基础验证 ✅ |
| 连续性检查 | ❌ 无 | ✅ 自动检查 ✅ |
| 代码量 | 34KB | 18KB |
| 速度 | ⚡ 最快 | ⚡ 快 |
| 推荐场景 | 日常批量抓取 | 高质量/分页章节 |
🚀 快速开始
v1.5.0(推荐)- 按章节号抓取
cd ~/.openclaw/workspace/skills/novel-scraper
python3 scripts/scraper_v5.py \
--chapters 301-400 \
--book "没钱修什么仙" \
--merge-interval 10
特点:
- ✅ 按章节号精确筛选(修复索引切片 bug)
- ✅ 自动提示缺失章节
- ✅ 分页自动补全
- ✅ 适合按章节范围抓取的场景
v1.4.0(生产版)- 日常使用
cd ~/.openclaw/workspace/skills/novel-scraper
python3 scripts/scraper.py \
--urls "https://www.bqquge.com/4/1962,https://www.bqquge.com/4/1963,..." \
--book "没钱修什么仙" \
--merge-interval 10
特点:
- ✅ 稳定可靠
- ✅ 速度最快
- ✅ 适合已知章节 URL 连续的场景
V5(智能版)- 高质量抓取
python3 scripts/scraper_v5.py \
--chapters 301-400 \
--book "没钱修什么仙" \
--merge-interval 10
特点:
- ✅ 章节号自动解析
- ✅ 分页自动补全
- ✅ 非小说内容智能跳过
- ✅ 适合分页章节较多的场景
📋 命令行参数
v1.5.0 参数(推荐)
| 参数 | 说明 | 默认值 |
|---|---|---|
--chapters | 章节号范围(格式:起始 - 结束) | - |
--url | 单章 URL | - |
--urls | 多章 URL(逗号分隔) | - |
--book | 书名 | 自动提取 |
--merge-interval | 每 N 章合并 | 10 |
--memory-limit | 内存限制 MB | 2500 |
--auto-close | 每 N 章释放内存 | 3 |
--retry | 重试次数 | 3 |
⚠️ v1.5.0 重要修复:
- 修复索引切片 bug(之前
data[300:400]错误对应章节号 300-419) - 新增
--chapters参数,按章节号精确筛选 - 自动提示缺失章节(网站目录中没有的章节)
V5 参数
| 参数 | 说明 | 默认值 |
|---|---|---|
--chapters | 章节号范围(格式:起始 - 结束) | - |
--url | 单章 URL | - |
--urls | 多章 URL(逗号分隔) | - |
--book | 书名 | 自动提取 |
--merge-interval | 每 N 章合并 | 10 |
--strict | 严格质量验证 | 关闭 |
-v | 详细日志 | 关闭 |
📁 输出位置
~/.openclaw/workspace/novels/
文件名格式:
- 多章合并:
书名_第 X-Y 章.txt - 单章:
书名_第 X 章.txt
🧪 测试验证
| 测试场景 | 版本 | 结果 |
|---|---|---|
| 第 1-10 章 | V5 | ✅ 119KB,完整 |
| 第 11-20 章 | V5 | ✅ 100KB,完整 |
| 第 111-210 章 | v1.4.0 | ✅ 10 个文件,~700KB |
| 分页补全 | V5 | ✅ 28 段→112 段 |
| 非小说跳过 | V5 | ✅ 自动跳过 |
🔧 故障排除
抓取内容为空
- 检查 URL 格式
- 清除缓存:
rm -rf /tmp/novel_scraper_cache/* - 检查网站是否可访问
章节号不正确
- 使用 V5 自动从标题解析章节号
文件保存位置
ls -lt ~/.openclaw/workspace/novels/ | head -5
版本: 1.4.0
更新: 2026-04-02
详见: CHANGELOG.md