Babata Browser 🦞 v2.0
轻量浏览器自动化技能。给巴巴塔装一双"网页上的手"——打开网页、填写表单、点击按钮、提取数据、截图保存。
架构概览
信息获取优先级:
验证/事实查询 → API/CLI(最快,不走浏览器)
探索/开放搜索 → web_search(Tavily,多角度)
JS渲染/交互/截图 → babata-browser(兜底)
浏览器操作策略(v2.0 升级):
获取结构 + 可交互元素 → Accessibility Snapshot(首选,Token高效)
提取页面文字 → get_text(结构化)
获取页面视觉状态 → screenshot(兜底)
对比 browser-use
| browser-use | babata-browser v2.0 | |
|---|---|---|
| 依赖 | 50+包 | 仅 Playwright |
| 安装 | 300MB+/20min | 100MB/2min |
| 控浏览器 | ✅ | ✅ |
| AI决策 | 内置LLM | 巴巴塔LLM直接决策 |
| 页面交互策略 | 视觉模型驱动 | Accessibility Tree优先 |
| Token效率 | 低(截图+视觉AI) | 高(结构化数据) |
| 中文任务 | 一般 | ✅ 原生中文 |
核心设计原则
1. Accessibility Tree 优先
源自 Playwright MCP 设计模式。优先使用Playwright的Accessibility Tree快照获取页面结构和可交互元素,而不是视觉模型/截图。Token效率更高,且不需要额外AI视觉能力。
| 场景 | 首选方式 | 兜底 |
|---|---|---|
| 获取页面结构和可交互元素 | Accessibility Snapshot | — |
| 提取页面文字 | get_text / get_html | — |
| 获取页面视觉状态 | — | screenshot |
2. CLI 轻量 > MCP 深度
微软Playwright团队已验证:CLI模式Token效率高于MCP。巴巴塔遵循同样原则:
- 高频操作(导航/点击/提取)→ 直接Playwright CLI API(轻量快速)
- 长周期/多步骤/需持久化状态 → MCP协议(富状态编排)
3. 巴巴塔LLM直接决策
不内嵌LLM,所有操作决策由巴巴塔的DeepSeek模型完成。优势:
- 统一上下文(不用切AI)
- 统一记忆(操作历史可追踪)
- 统一安全(Guardrails覆盖所有操作路径)
安装
前置依赖
pip install playwright
python -m playwright install chromium
安装本包(全局可导入)
# 从 babata-browser 目录执行
cd skills/babata-browser
pip install -e .
安装后可从任意目录 import,包括 cron 隔离会话。
使用
from scripts.babata_browser import execute_task
# 一句话操控浏览器
execute_task("打开卫健委官网,搜索最新政策,提取前5条标题")
execute_task("打开 https://example.com,搜索 医疗AI,提取结果")
execute_task("打开登录页,填表提交,截图保存")
CLI 模式
babata-browser '打开 GitHub Trending,提取热门项目' --json
内置能力
| 动作 | 说明 | 策略 |
|---|---|---|
goto | 导航到URL | CLI |
get_text | 提取页面文字(Accessibility Tree优先) | CLI |
get_html | 获取HTML | CLI |
click | 点击元素(文本/CSS) | CLI |
fill | 填写表单 | CLI |
get_links | 提取所有链接 | CLI |
screenshot | 全页截图(Accessibility Tree不可用时兜底) | CLI |
scroll | 滚动页面 | CLI |
execute_js | 执行JavaScript | CLI |
extract_table | 智能提取表格 | CLI |
search_and_extract | 搜索+提取 | CLI |
login_if_needed | 自动登录 | CLI/MCP双模式 |
accessibility_snapshot | 获取Accessibility Tree快照(v2.0新增) | CLI |
应用场景
- 卫健委/医保局/中纪委官网动态政策抓取
- 政府监管系统自动填报
- JS渲染页面数据采集
- 网页内容变化监控
- 自动化表单提交
变更日志
| 版本 | 日期 | 改动 |
|---|---|---|
| v2.0 | 2026-05-07 | 新增Accessibility Tree优先策略、CLI/MCP双模式选择、策略表。来源:Playwright MCP设计模式 |
| v1.0 | — | 初始版本 |