web-recon

网站内容侦察技能。无需登录即可获取网站公开/半公开内容。使用场景:(1) 竞品分析收集公开信息,(2) 安全评估未授权访问点,(3) OSINT 情报收集,(4) 网站内容存档,(5) 监控页面变化。合法用途仅限:授权渗透测试、公开信息收集、自有系统审计。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "web-recon" with this command: npx skills add szzg007/agent-p-web-recon

Web Recon - 网站内容侦察

角色设定

P 的侦察模式 - 用黑客思维发现暴露面,用红客原则保护边界。

核心原则

  1. 合法合规 - 仅用于授权测试/公开信息/自有系统
  2. 被动优先 - 优先无接触方式(快照/缓存/搜索引擎)
  3. 不留痕迹 - OSINT 手段不接触目标服务器
  4. 道德边界 - 不绕过付费墙、不窃取敏感数据

技术方法库

方法 1: 搜索引擎快照(被动,无痕迹)

# Google 缓存
https://webcache.googleusercontent.com/search?q=cache:TARGET_URL

# Wayback Machine 历史快照
https://web.archive.org/web/*/TARGET_URL

# 搜索引擎 site: 语法
site:target.com inurl:admin
site:target.com filetype:pdf

优点: 完全被动,不留痕迹 局限: 依赖搜索引擎索引

方法 2: 爬虫模拟(半被动)

某些网站对爬虫开放内容(SEO 需求):

# 修改 User-Agent 伪装爬虫
headers = {
    "User-Agent": "Googlebot/2.1 (+http://www.google.com/bot.html)"
}

识别信号:

  • 同一 URL,不同 User-Agent 返回不同内容
  • robots.txt 允许爬虫访问的路径

方法 3: 公共 API 探测(主动)

很多网站有未授权或弱授权的 API:

# 常见 API 端点
/api/v1/posts
/api/v1/users
/graphql
/api/feed
/rss
/atom.xml

工具:

# 使用 gau 获取已知 URL
gau target.com | grep api

# 使用 waybackurls 获取历史 URL
waybackurls target.com | grep -E "\.json|xml|rss"

方法 4: 前端逻辑绕过(主动,需授权)

针对初级程序员的伪防护:

// 禁用 JavaScript 绕过登录弹窗
// 方法:浏览器 DevTools → Settings → Disable JavaScript

// 直接访问渲染后的内容
// 某些 SPA 应用内容已加载,只是被遮罩层挡住

// 查看网络请求
// DevTools → Network → 查找 API 响应中的完整数据

方法 5: 目录扫描(主动,需授权)

发现未授权访问的路径:

# 使用 dirsearch
dirsearch -u https://target.com -e php,html,js,json

# 使用 gobuster
gobuster dir -u https://target.com -w common.txt

常见暴露路径:

/admin
/dashboard
/api/v1/export
/backup/
/.git/
/config.php

方法 6: RSS/Atom 订阅(被动)

很多网站提供公开 RSS:

# 常见位置
/rss
/rss.xml
/feed
/atom.xml
/blog/rss

工作流程

阶段 1: 被动收集(推荐优先)

1. 搜索引擎查询(site: / inurl: / filetype:)
2. Wayback Machine 历史快照
3. Google Cache 缓存
4. 检查 RSS/Atom 订阅

阶段 2: 半主动探测(需谨慎)

1. 修改 User-Agent 测试爬虫权限
2. 探测公共 API 端点
3. 检查 robots.txt 配置

阶段 3: 主动扫描(仅限授权)

1. 目录扫描(dirsearch/gobuster)
2. 前端逻辑测试(禁用 JS)
3. 网络请求分析(DevTools)

输出格式

## 侦察报告:TARGET_URL

### 发现内容
| 路径 | 内容类型 | 访问方式 | 风险等级 |
|------|----------|----------|----------|
| /api/posts | JSON | 公开 | 中 |
| /admin | HTML | 未授权 | 高 |

### 敏感暴露
- [ ] 用户数据泄露
- [ ] 内部路径暴露
- [ ] 配置文件可访问
- [ ] 备份文件未保护

### 建议修复
1. ...
2. ...

安全与合规

合法用途 ✅

  • 授权渗透测试
  • 自有系统安全审计
  • 公开信息收集(OSINT)
  • 竞品公开信息分析

非法用途 ❌

  • 未授权访问付费内容
  • 窃取用户隐私数据
  • 绕过商业系统的访问控制
  • 恶意信息收集

风险评估

方法法律风险技术风险建议
搜索引擎快照安全
Wayback Machine安全
爬虫模拟注意 robots.txt
API 探测仅限授权
目录扫描必须授权

参考资源

  • OWASP 测试指南references/owasp-testing.md
  • OSINT 框架references/osint-framework.md
  • 工具脚本scripts/ 目录

P 注:技术无罪,关键在用途。永远站在防御者一边。

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

Security

web-recon

Website vulnerability scanner and security audit toolkit. Scan any website for security issues: open ports (nmap), exposed secrets, subdomain enumeration, di...

Registry SourceRecently Updated
6611Profile unavailable
Security

IdentityMonitoringAgent

An OSINT sentinel that monitors the public web for email exposure, username footprint, and identity leaks without API keys.

Registry SourceRecently Updated
2110Profile unavailable
Security

OSINT Social Analyzer

Investigate a username across 1000+ social media platforms and websites using social-analyzer. Use this skill whenever the user wants to look up, investigate...

Registry SourceRecently Updated
5941Profile unavailable
Security

Network AI

Local Python orchestration skill: multi-agent workflows via shared blackboard file, permission gating, token budget scripts, and persistent project context....

Registry SourceRecently Updated