wos-literature-toolkit

WOS 文献一站式工具:Web of Science 检索爬取 + PDF 批量下载,全部在同一个 Web 界面完成。 基于 Selenium 爬取 WOS 文献列表,导出 Excel 后自动调用多渠道 PDF 下载器(Sci-Hub/CORE/S2 OA/OpenAlex/Unpaywall/Publisher)。 This skill should be used when the user wants to search and download academic papers from WOS, or mentions "WOS", "Web of Science", "文献检索下载", "论文下载", "WOS爬虫".

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "wos-literature-toolkit" with this command: npx skills add grizzlyccc/wos-crawler

WOS Literature Toolkit

WOS 文献一站式解决方案:从 Web of Science 检索爬取到 PDF 批量下载,全部在同一个 Web 界面完成。

功能概览

Phase 1 - WOS Crawl:

  • 自然语言检索词自动转换为 WOS 高级检索式
  • 支持关键词/作者/标题/DOI/期刊/年份/文献类型多维度检索
  • 期刊过滤:内置 40+ 预设期刊,支持精确/模糊匹配
  • 自动分页爬取、结果去重
  • 自动导出 Excel(标题、作者、期刊、DOI、被引频次、摘要等)

Phase 2 - PDF Download:

  • 自动使用 Phase 1 爬取的 Excel,一键启动 PDF 下载
  • 也支持手动上传任意 Excel 文件
  • 6 个免费下载渠道按优先级依次尝试
  • 实时进度 + 下载统计 + 渠道分布 + 日志
  • 自定义输出目录

下载渠道优先级: Sci-Hub (CDN + 爬取) -> Semantic Scholar OA -> CORE -> Unpaywall -> OpenAlex -> Publisher Direct

使用方式

python {SKILL_DIR}/scripts/web_ui.py

启动后自动打开 http://localhost:5678

工作流程

  1. 打开 Web UI,在 WOS Crawl 标签页填写检索条件
  2. 点击 Start WOS Crawl,浏览器自动打开 WOS 并开始爬取
  3. 爬取完成后自动导出 Excel,点击 Download PDFs 按钮切换到下载标签
  4. PDF Download 标签页确认设置,点击开始下载
  5. 下载完成后点击 Open PDF Folder 查看所有 PDF 文件

也可以跳过爬取直接下载

如果已有 WOS 导出的 Excel 文件:

  1. 切换到 PDF Download 标签页
  2. Option B 区域上传 Excel 文件
  3. 选择输出目录,点击开始下载

前置条件

  • Python 3.7+
  • 依赖: pip install selenium pandas openpyxl flask requests
  • Edge 浏览器(WOS 爬取需要)
  • WOS 机构订阅或登录账号

Agent 使用指南

当用户需要从 WOS 检索并下载文献 PDF 时:

  1. 启动 Web UI: python {SKILL_DIR}/scripts/web_ui.py
  2. 引导用户在浏览器中填写检索条件
  3. WOS 爬取需要用户登录机构账号(首次运行时浏览器会自动打开 WOS 页面)
  4. 爬取完成后引导用户点击 "Download PDFs" 按钮
  5. 下载完成后帮助用户打开输出文件夹查看结果

关键注意事项

  • WOS 爬取需要机构订阅或已登录 WOS 账号
  • Sci-Hub 渠道需要网络能访问(部分网络环境可能不可用)
  • Cookie 持久化:首次登录 WOS 后会自动保存 Cookie,后续无需重复登录
  • 已下载的 PDF 会被自动跳过(断点续传)

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

Research

scihub-downloader

Automation skill for scihub-downloader.

Registry Source
1320Profile unavailable
Research

Daily Literature Search

Automated daily literature search system for academic researchers. Performs scheduled searches across PubMed, OpenAlex, and Semantic Scholar with automatic d...

Registry SourceRecently Updated
2220Profile unavailable
Research

Document Workflow

一键实现学术论文的搜索、下载、分块提取文本及结构化总结,支持按年份和引用数筛选。

Registry SourceRecently Updated
4581Profile unavailable
Research

学术研究助手

学术研究全流程助手。提供论文写作指导、文献检索方法、学术工具推荐、期刊投稿指南、学术会议信息、科研项目管理等。适用于大学生、研究生和科研人员的学术工作辅助。支持家用(知识库)和商用(API扩展)双模式。触发器:用户提出论文/文献/期刊/投稿/学术/科研相关问题时使用。

Registry SourceRecently Updated
440Profile unavailable