抖音违禁词检测

需要执行完整检测与交付流程时，必须先读取 references/core_workflow.md 并遵循其中全部规则（超长内容处理、分输入类型步骤、三板块输出模板、输出铁律、示例与注意事项）；详情步骤不在本页重复，以免与核心工作流失效不一致。

简介

面向需在抖音发布或复盘文案的运营、创作者与商家，在成稿前快速发现违禁表述并拿到可落地的替换说法。

通过本 Skill，你可以：

🔍 合规筛查：对粘贴文案、TXT/DOC/DOCX、网页正文或图片内文字做违禁词检测（平台固定为抖音）
📌 结构化反馈：违禁词标红展示，配套「替换词 + 更换理由」表格，便于逐条修改
✏️ 少改写、可交付：在保持语气与排版的前提下给出优化文案，并按规范写入纯文本文件并以卡片形式提供给用户下载

适用于短视频脚本校对、直播间话术审核、详情页与活动文案自检等场景。脚本侧依赖 Python 环境与 Playwright Chromium（见 frontmatter dependency）；细节安装说明见核心工作流「前置准备」。

功能特性

核心功能

📝 多源输入：支持直接文本、--file 文本类文件、--url 网页提取；图片由助手先做文字识别后以 --content 送检（流程见核心工作流）
🔁 提取与检测分离：可先 --extract-only 拿到字数再决定是否检测，与超长内容规则衔接
📊 固定输出形态：检测结果 + 修改建议表 + 建议优化文案（无违禁词时的简化输出规则见核心工作流）
📎 文件交付：检出违禁词时须写入 ./抖音_优化文案_{随机6位数字}.txt（纯文本、无 HTML）并发送文件卡片（细则见核心工作流）

特色亮点

📏 字数闸门：超过 3000 字须按核心工作流暂停征询；超过 10000 字直接中止检测并提示用户手动分批（阈值与话术以核心工作流为准）
🌐 动态网页：网页抓取优先 Playwright 渲染，静态回退由脚本内置处理
🧹 英文误匹配过滤：脚本侧对已知的英文子串误报做过滤，助手无需重复处理

使用指南

基础使用（执行 checklist）

第 1 步：加载必读工作流

在执行任何检测或输出前，打开并遵循 references/core_workflow.md。其中包含：各类输入的脚本调用顺序、--content/--file/--url 互斥约定、超长内容分支、三板块模板与「输出格式铁律」。

第 2 步：识别输入并调用脚本

根据用户提供的是纯文本、文件路径、URL 或图片，按核心工作流「操作步骤」选用 --extract-only 或直接检测；每次调用仅使用 --content、--file、--url 三者之一。

用户：帮我看下这段话有没有抖音违禁词：「……」助手：先统计字数；若在阈值内则执行检测（运行环境已配置 DY_SENSITIVE_WORD_API_URL，或单次使用 --api-url=…），例如 python scripts/check_sensitive_words.py --content="……"，再按核心工作流解析 JSON 填模板。

用户：这是文案.docx，检查一下助手：先 --file=… --extract-only 看 length，再按字数规则决定单次检测或征询分批。

若用户未提供任何可检测内容：追问需要粘贴文案、上传文件还是提供链接；勿凭空生成所谓「检测结果」。

第 3 步：呈现结果并交付文件

严格按核心工作流「输出模板」「输出格式铁律」渲染（含 word_count=0 时的简化输出）。仅在检出违禁词时写入优化文案 txt 并发送文件卡片；分批检测须汇总全文后再写文件（见核心工作流）。

常用命令速查

命令示例	功能
`DY_SENSITIVE_WORD_API_URL=https://…/path python scripts/check_sensitive_words.py --content="文案"`	配置接口后检测全文（extract-only 不需要配置）
`python scripts/check_sensitive_words.py --api-url=https://…/path --content="文案"`	单次指定检测 API，不写环境变量
`python scripts/check_sensitive_words.py --file=/path/to/a.docx --extract-only`	仅提取文本与长度
`python scripts/check_sensitive_words.py --file=/path/to/a.txt`	从文件提取并检测（≤3000 字路径下，需已配置 API）
`python scripts/check_sensitive_words.py --url=https://example.com --extract-only`	仅抓取网页正文与长度

完整参数说明与行为边界见 scripts/check_sensitive_words.py 及核心工作流。

失败或无法执行时：说明原因（缺输入、PDF 不支持、超过 10000 字中止、网络或环境错误等），不得伪造 JSON 或违禁词列表；合规Disclaimer 以核心工作流模板为准。

使用场景

场景	角色	需求描述	使用方式
短视频口播改稿	创作者 / 编导	避免台词触碰抖音禁用表述	粘贴脚本或导入 DOCX；按模板查看标红与替换表；保存 txt 优化稿
商品详情与活动页	电商运营	上架前自检功效与极限用语风险	贴文案或给商品页 URL（extract-only 判长后再检）；对照修改建议微调
批量笔记复盘	新媒体运营	统一规范团队出库文案	单篇文本或文件送检；超长按规则分批并汇总优化 txt
网页专题合规	市场 / 品牌	抓取落地页正文做一次性扫描	`--url` 提取后检测；动态页依赖 Playwright 环境就绪

注意事项

流程权威：执行细节以 references/core_workflow.md 为准；本页为提纲与召回说明，不替代核心工作流中的强制性条款。
结果性质：检测与替换建议仅供参考，用户须结合经营范围与实际功效自行核对（模板中含数据说明）。
输入边界：不支持 PDF；图片仅提取图中文字送检；不得编造脚本未返回的违禁词或统计数据。
部署：检测接口须由部署方配置 DY_SENSITIVE_WORD_API_URL（HTTPS 完整 URL）或调用时传 --api-url；--extract-only 不调用检测接口，无需配置。若 Playwright/Chromium 未就绪导致网页提取失败，应向用户说明环境原因并给出可行替代（如改为粘贴正文或使用静态可访问副本）。
角色边界：仅在主 Agent 执行；子任务中不承载本 Skill 的完整流程。

资源索引

核心工作流（必读）：references/core_workflow.md
脚本：scripts/check_sensitive_words.py（--content / --file / --url；--extract-only 仅提取；检测依赖环境变量 DY_SENSITIVE_WORD_API_URL 或 --api-url；平台字段硬编码抖音）

dy-prohibited-word

Safety Notice

Copy this and send it to your AI assistant to learn