抖音内容爬虫 Skill

基于浏览器自动化的抖音内容爬虫，支持自然语言直接搜索视频内容。

功能特性

✅ 自然语言搜索 - 直接说"搜索一下海鲜视频"即可执行搜索 ✅ 视频列表抓取 - 获取搜索结果的视频标题、作者、点赞数等信息 ✅ 无代码交互 - 纯自然语言驱动 ✅ 会话持久化 - 自动保存浏览器状态

快速开始

安装依赖

npm install -g agent-browser
agent-browser install

使用方式 - 自然语言驱动

直接用自然语言发出指令即可：

搜索一下海鲜视频
帮我找一下美食探店视频
搜索搞笑段子
查找Python教程视频

工作原理

当用户输入自然语言搜索请求时，Skill 会：

意图识别 - 解析用户输入中的搜索关键词（如"海鲜视频"→关键词：海鲜）
浏览器导航 - 自动打开抖音搜索页面
自动输入 - 在搜索框输入关键词并提交
结果抓取 - 提取视频列表信息（标题、作者、点赞数等）
结果返回 - 格式化输出搜索结果

支持的自然语言句式

搜索一下[关键词]视频
帮我搜[关键词]
查找[关键词]内容
找一下[关键词]的视频
搜索[关键词]

更多示例见：examples/search_requests.txt

执行流程 (Agent 执行协议)

当用户请求抖音搜索时，按以下步骤执行：

步骤 1: 解析搜索关键词

从用户输入中提取搜索关键词：

输入："搜索一下海鲜视频" → 关键词：海鲜
输入："帮我找美食探店" → 关键词：美食探店
输入："搞笑段子" → 关键词：搞笑段子

步骤 2: 初始化浏览器会话

agent-browser --session douyin open "https://www.douyin.com/search"
agent-browser wait --load networkidle
agent-browser snapshot -i --json

步骤 3: 定位并填写搜索框

从 snapshot 中找到搜索框 ref，然后：

agent-browser fill @ref "关键词"
agent-browser press Enter
agent-browser wait --load networkidle
agent-browser wait 2000

步骤 4: 抓取搜索结果

agent-browser snapshot -i -d 4 --json

步骤 5: 提取并返回结果

从 snapshot 中提取：

视频标题
作者名称
点赞/评论/收藏数
视频链接

边界条件处理

搜索框未找到：等待重试或刷新页面
登录弹窗：自动关闭或跳过（抖音未登录也可搜索）
页面加载缓慢：增加等待时间
结果为空：提示用户更换关键词

示例对话

用户：搜索一下海鲜视频

Agent：正在搜索海鲜视频...

✅ 搜索完成！找到以下海鲜相关视频：

1. 【渔民阿峰】今天赶海收获大，抓到超大波士顿龙虾 | 12.5万赞
2. 海鲜大排档，帝王蟹这样吃才叫过瘾 | 8.3万赞
3. 挑战1000元吃海鲜自助，能回本吗？ | 15.2万赞
...

进阶用法

保存认证状态（登录后抓取更多内容）

# 登录后保存状态
agent-browser --session douyin state save douyin-auth.json

# 下次直接加载状态
agent-browser --session douyin state load douyin-auth.json

滚动加载更多结果

agent-browser scroll down 1000
agent-browser wait 1000
agent-browser snapshot -i --json

使用方式总结：想说什么就说什么，Skill 会自动理解并执行！ 🎬

douyin-scraper

Safety Notice

Copy this and send it to your AI assistant to learn