抖音违禁词检测
需要执行完整检测与交付流程时,必须先读取 references/core_workflow.md 并遵循其中全部规则(超长内容处理、分输入类型步骤、三板块输出模板、输出铁律、示例与注意事项);详情步骤不在本页重复,以免与核心工作流失效不一致。
简介
面向需在抖音发布或复盘文案的运营、创作者与商家,在成稿前快速发现违禁表述并拿到可落地的替换说法。
通过本 Skill,你可以:
- 🔍 合规筛查:对粘贴文案、TXT/DOC/DOCX、网页正文或图片内文字做违禁词检测(平台固定为抖音)
- 📌 结构化反馈:违禁词标红展示,配套「替换词 + 更换理由」表格,便于逐条修改
- ✏️ 少改写、可交付:在保持语气与排版的前提下给出优化文案,并按规范写入纯文本文件并以卡片形式提供给用户下载
适用于短视频脚本校对、直播间话术审核、详情页与活动文案自检等场景。脚本侧依赖 Python 环境与 Playwright Chromium(见 frontmatter dependency);细节安装说明见核心工作流「前置准备」。
功能特性
核心功能
- 📝 多源输入:支持直接文本、
--file文本类文件、--url网页提取;图片由助手先做文字识别后以--content送检(流程见核心工作流) - 🔁 提取与检测分离:可先
--extract-only拿到字数再决定是否检测,与超长内容规则衔接 - 📊 固定输出形态:检测结果 + 修改建议表 + 建议优化文案(无违禁词时的简化输出规则见核心工作流)
- 📎 文件交付:检出违禁词时须写入
./抖音_优化文案_{随机6位数字}.txt(纯文本、无 HTML)并发送文件卡片(细则见核心工作流)
特色亮点
- 📏 字数闸门:超过 3000 字须按核心工作流暂停征询;超过 10000 字直接中止检测并提示用户手动分批(阈值与话术以核心工作流为准)
- 🌐 动态网页:网页抓取优先 Playwright 渲染,静态回退由脚本内置处理
- 🧹 英文误匹配过滤:脚本侧对已知的英文子串误报做过滤,助手无需重复处理
使用指南
基础使用(执行 checklist)
第 1 步:加载必读工作流
在执行任何检测或输出前,打开并遵循 references/core_workflow.md。其中包含:各类输入的脚本调用顺序、--content/--file/--url 互斥约定、超长内容分支、三板块模板与「输出格式铁律」。
第 2 步:识别输入并调用脚本
根据用户提供的是纯文本、文件路径、URL 或图片,按核心工作流「操作步骤」选用 --extract-only 或直接检测;每次调用仅使用 --content、--file、--url 三者之一。
用户:帮我看下这段话有没有抖音违禁词:「……」 助手:先统计字数;若在阈值内则执行检测(运行环境已配置
DY_SENSITIVE_WORD_API_URL,或单次使用--api-url=…),例如python scripts/check_sensitive_words.py --content="……",再按核心工作流解析 JSON 填模板。
用户:这是文案.docx,检查一下 助手:先
--file=… --extract-only看 length,再按字数规则决定单次检测或征询分批。
若用户未提供任何可检测内容:追问需要粘贴文案、上传文件还是提供链接;勿凭空生成所谓「检测结果」。
第 3 步:呈现结果并交付文件
严格按核心工作流「输出模板」「输出格式铁律」渲染(含 word_count=0 时的简化输出)。仅在检出违禁词时写入优化文案 txt 并发送文件卡片;分批检测须汇总全文后再写文件(见核心工作流)。
常用命令速查
| 命令示例 | 功能 |
|---|---|
DY_SENSITIVE_WORD_API_URL=https://…/path python scripts/check_sensitive_words.py --content="文案" | 配置接口后检测全文(extract-only 不需要配置) |
python scripts/check_sensitive_words.py --api-url=https://…/path --content="文案" | 单次指定检测 API,不写环境变量 |
python scripts/check_sensitive_words.py --file=/path/to/a.docx --extract-only | 仅提取文本与长度 |
python scripts/check_sensitive_words.py --file=/path/to/a.txt | 从文件提取并检测(≤3000 字路径下,需已配置 API) |
python scripts/check_sensitive_words.py --url=https://example.com --extract-only | 仅抓取网页正文与长度 |
完整参数说明与行为边界见 scripts/check_sensitive_words.py 及核心工作流。
失败或无法执行时:说明原因(缺输入、PDF 不支持、超过 10000 字中止、网络或环境错误等),不得伪造 JSON 或违禁词列表;合规Disclaimer 以核心工作流模板为准。
使用场景
| 场景 | 角色 | 需求描述 | 使用方式 |
|---|---|---|---|
| 短视频口播改稿 | 创作者 / 编导 | 避免台词触碰抖音禁用表述 | 粘贴脚本或导入 DOCX;按模板查看标红与替换表;保存 txt 优化稿 |
| 商品详情与活动页 | 电商运营 | 上架前自检功效与极限用语风险 | 贴文案或给商品页 URL(extract-only 判长后再检);对照修改建议微调 |
| 批量笔记复盘 | 新媒体运营 | 统一规范团队出库文案 | 单篇文本或文件送检;超长按规则分批并汇总优化 txt |
| 网页专题合规 | 市场 / 品牌 | 抓取落地页正文做一次性扫描 | --url 提取后检测;动态页依赖 Playwright 环境就绪 |
注意事项
- 流程权威:执行细节以 references/core_workflow.md 为准;本页为提纲与召回说明,不替代核心工作流中的强制性条款。
- 结果性质:检测与替换建议仅供参考,用户须结合经营范围与实际功效自行核对(模板中含数据说明)。
- 输入边界:不支持 PDF;图片仅提取图中文字送检;不得编造脚本未返回的违禁词或统计数据。
- 部署:检测接口须由部署方配置
DY_SENSITIVE_WORD_API_URL(HTTPS 完整 URL)或调用时传--api-url;--extract-only不调用检测接口,无需配置。若 Playwright/Chromium 未就绪导致网页提取失败,应向用户说明环境原因并给出可行替代(如改为粘贴正文或使用静态可访问副本)。 - 角色边界:仅在主 Agent 执行;子任务中不承载本 Skill 的完整流程。
资源索引
- 核心工作流(必读):references/core_workflow.md
- 脚本:scripts/check_sensitive_words.py(
--content/--file/--url;--extract-only仅提取;检测依赖环境变量DY_SENSITIVE_WORD_API_URL或--api-url;平台字段硬编码抖音)