抖音内容爬虫 Skill
基于浏览器自动化的抖音内容爬虫,支持自然语言直接搜索视频内容。
功能特性
✅ 自然语言搜索 - 直接说"搜索一下海鲜视频"即可执行搜索 ✅ 视频列表抓取 - 获取搜索结果的视频标题、作者、点赞数等信息 ✅ 无代码交互 - 纯自然语言驱动 ✅ 会话持久化 - 自动保存浏览器状态
快速开始
安装依赖
npm install -g agent-browser
agent-browser install
使用方式 - 自然语言驱动
直接用自然语言发出指令即可:
搜索一下海鲜视频
帮我找一下美食探店视频
搜索搞笑段子
查找Python教程视频
工作原理
当用户输入自然语言搜索请求时,Skill 会:
- 意图识别 - 解析用户输入中的搜索关键词(如"海鲜视频"→关键词:海鲜)
- 浏览器导航 - 自动打开抖音搜索页面
- 自动输入 - 在搜索框输入关键词并提交
- 结果抓取 - 提取视频列表信息(标题、作者、点赞数等)
- 结果返回 - 格式化输出搜索结果
支持的自然语言句式
搜索一下[关键词]视频
帮我搜[关键词]
查找[关键词]内容
找一下[关键词]的视频
搜索[关键词]
更多示例见:examples/search_requests.txt
执行流程 (Agent 执行协议)
当用户请求抖音搜索时,按以下步骤执行:
步骤 1: 解析搜索关键词
从用户输入中提取搜索关键词:
- 输入:"搜索一下海鲜视频" → 关键词:海鲜
- 输入:"帮我找美食探店" → 关键词:美食探店
- 输入:"搞笑段子" → 关键词:搞笑段子
步骤 2: 初始化浏览器会话
agent-browser --session douyin open "https://www.douyin.com/search"
agent-browser wait --load networkidle
agent-browser snapshot -i --json
步骤 3: 定位并填写搜索框
从 snapshot 中找到搜索框 ref,然后:
agent-browser fill @ref "关键词"
agent-browser press Enter
agent-browser wait --load networkidle
agent-browser wait 2000
步骤 4: 抓取搜索结果
agent-browser snapshot -i -d 4 --json
步骤 5: 提取并返回结果
从 snapshot 中提取:
- 视频标题
- 作者名称
- 点赞/评论/收藏数
- 视频链接
边界条件处理
- 搜索框未找到:等待重试或刷新页面
- 登录弹窗:自动关闭或跳过(抖音未登录也可搜索)
- 页面加载缓慢:增加等待时间
- 结果为空:提示用户更换关键词
示例对话
用户:搜索一下海鲜视频
Agent:正在搜索海鲜视频...
✅ 搜索完成!找到以下海鲜相关视频:
1. 【渔民阿峰】今天赶海收获大,抓到超大波士顿龙虾 | 12.5万赞
2. 海鲜大排档,帝王蟹这样吃才叫过瘾 | 8.3万赞
3. 挑战1000元吃海鲜自助,能回本吗? | 15.2万赞
...
进阶用法
保存认证状态(登录后抓取更多内容)
# 登录后保存状态
agent-browser --session douyin state save douyin-auth.json
# 下次直接加载状态
agent-browser --session douyin state load douyin-auth.json
滚动加载更多结果
agent-browser scroll down 1000
agent-browser wait 1000
agent-browser snapshot -i --json
使用方式总结:想说什么就说什么,Skill 会自动理解并执行! 🎬