Seedance 2.0 提示词撰写 Skill
本 Skill 基于即梦 Seedance 2.0 官方使用手册提炼,帮助用户撰写高质量的 Seedance 2.0 视频生成提示词。
1. 平台参数速查
| 维度 | 限制 |
|---|---|
| 图片输入 | ≤ 9 张 |
| 视频输入 | ≤ 3 个,总时长 ≤ 15s |
| 音频输入 | MP3,≤ 3 个,总时长 ≤ 15s |
| 混合输入总上限 | 12 个文件 |
| 生成时长 | 4-15s,自由选择 |
| 声音输出 | 自带音效/配乐(原生声画同步) |
2. 两种入口模式
2.1 首尾帧模式
- 适用于:仅上传首帧图(或首帧+尾帧)+ 文本提示词
- 场景:简单的图生视频、首尾帧过渡动画
2.2 全能参考模式
- 适用于:需要多模态组合输入(图+视频+音频+文本)
- 交互方式:通过
@素材名指定每个素材的用途 - 示例:
@图片1 作为首帧,@视频1 参考镜头语言,@音频1 用于配乐
3. 核心提示词公式
Seedance 2.0 的提示词遵循一个核心公式:
素材角色指定 + 动作/剧情描述 + 镜头语言 + 氛围/音效指令
3.1 素材角色指定(WHO / WHAT)
用 @ 符号明确每个素材在画面中的角色。关键原则:每个素材必须有明确的身份和用途。
常见指定模式:
| 模式 | 写法示例 |
|---|---|
| 指定为角色 | @图片1的男人 / 参考@图片1@图片2长枪角色 |
| 指定为首帧 | @图片1作为首帧画面 / @图片1作为画面的首帧图 |
| 指定为尾帧 | @图片2作为尾帧 |
| 指定为场景 | 他在@图2的电梯中 / 在@图5的枫叶林中 |
| 指定为道具/商品 | 对@图片2的包包进行商业化摄像展示 / 手中提着@图片3的包 |
| 指定为风格参考 | 包包的表面材质参考@图片3 |
| 指定为动作参考 | 模仿@视频1的动作 / 完全参考@视频1的所有运镜效果 |
| 指定为音频参考 | 旁白的音色参考@视频1 / 背景BGM参考@视频3中的音效 |
| 指定为节奏参考 | 视频节奏参考@视频 / 参考@视频中的画面关键帧的位置和整体节奏 |
| 指定为形象但非首帧 | @图片1的女子走到镜子前 / 参考@图1的男人形象 |
多素材组合示例:
参考@图1的男人形象,他在@图2的走廊中,完全参考@视频1的所有运镜效果
服装参考@图片1@图片2的样式,手中提着@图片3的包,视频节奏参考@视频
3.2 动作/剧情描述(WHAT HAPPENS)
Seedance 2.0 的最大优势是用叙事性语言描述即可,模型自动规划分镜。
高效描述原则:
-
按时间线叙述,而非用技术术语
- ✅
男人下班后疲惫的走在走廊,脚步变缓,最后停在家门口 - ❌
生成一个行走动画,逐渐减速
- ✅
-
动作要具体、可视化
- ✅
快速的将手伸出画框拿起可乐喝了一口,然后露出一脸满足的表情 - ❌
角色拿起饮料
- ✅
-
情绪要明确写出
- ✅
脸部特写镜头,男人深呼吸,调整情绪,收起了负面情绪,变得轻松 - ✅
沉思了一会突然开始崩溃大叫 - ❌
角色情绪变化
- ✅
-
对话直接写在提示词中(支持多语言口型同步)
- ✅
用普通话说"做完他的,做你的,大家文明排队。" - ✅
女主说话"何人擅闯我永宁侯府?"
- ✅
-
复杂剧情使用时间戳分段
0-3秒画面:[场景A描述] 3-6秒画面:[场景B描述] 7-12秒画面:[场景C描述] 13-15秒画面:[结尾画面描述]
3.3 镜头语言(HOW TO SHOOT)
Seedance 2.0 支持两种镜头控制方式:
方式A:参考视频运镜(推荐,最精准)
完全参考@视频1的所有运镜效果
参考@视频1的运镜、画面切换节奏
运镜参考@视频1,推近到屏幕的特写,镜头旋转后反转展示全貌
方式B:文字描述运镜(无参考视频时使用)
| 镜头类型 | 提示词写法 |
|---|---|
| 一镜到底 | 一镜到底的追踪镜头,从街头跟随...上楼梯、穿过走廊、进入屋顶 |
| 推近/微距 | 镜头前推 / 推近到特写 / 镜头推进特写茶杯 |
| 拉远 | 镜头拉远展示酒馆全景 / 镜头小幅度拉远(露出街头全景) |
| 跟随 | 镜头跟随黑衣男子快速逃亡 / 正面跟拍 / 侧面跟拍 |
| 环绕 | 几个环绕镜头展示电梯内视角 / 近的环绕镜头 |
| 摇镜头 | 镜头右摇 / 镜头快速向右边摇动 / 急停后右摇180度 |
| 俯拍 | 转为空中的俯拍视角 / 半空中俯拍 |
| 主观视角 | 第一人称视角 / 主观视角 / 从第三人称视角变成人物的主观视角 |
| 固定镜头 | 固定镜头 |
| 希区柯克变焦 | 主角在惊恐时希区柯克变焦 |
| 切镜 | 切镜,特写 / 镜头切到空中的俯拍视角 |
景别描述:
脸部特写镜头/手部特写/中景/全景/远景
3.4 氛围/音效指令(SOUND & MOOD)
Seedance 2.0 原生音频能力非常强,可以直接在提示词中控制:
音效控制:
背景音效为走路声,人群声,汽车声
背景音恢宏大气
分镜切换以及重点的情节演绎加入特殊音效
出现电吉他的激昂音乐
旁白/对话控制:
用科普风格和音色,将图片1中的内容演绎出来
全程自然对话
音色参考@视频1
风格氛围:
整体风格诙谐幽默
电影级写实风格,采用2.35:1宽银幕,24fps,细腻的画面风格
黑白水墨风格
4. 七大场景模板
4.1 产品广告片
对@图片N的[产品]进行商业化的摄像展示,[产品]的[角度A]参考@图片N,
[产品]的[材质/细节]参考@图片N,要求将[产品]的细节均有所展示,
背景音[氛围描述]
进阶版(带场景叙事):
[时间戳分段]
0-Ns画面:[场景建立,产品入场]
N-Ns画面:[产品特写/功能展示]
N-Ns画面:[使用场景/情感连接]
最后N秒画面:[品牌收束,产品全貌+slogan]
4.2 人物叙事短片
@图片1的[角色]在[场景],[一系列连贯动作描述],
全程自然对话/旁白,[情绪氛围]
4.3 动作参考复刻
参考@图1@图2[角色A],@图3@图4[角色B],
模仿@视频1的动作,在@图5的[场景]中[行为]
4.4 创意特效复刻
将@视频1的[人物/首帧]替换成@图片1,
完全参考@视频1的特效和动作,[特效变化描述]
4.5 一镜到底
@图片1@图片2...@图片N,一镜到底的[镜头类型]镜头,
从[起点]...[中间节点]...最终[终点]
4.6 视频延长
将@视频1延长Ns。[新增内容的时间戳分段描述]
注意:生成时长选择 = 新增部分时长
4.7 视频编辑/颠覆
颠覆@视频1里的剧情,[新剧情描述]
将@视频1中的[角色A]换成[角色B/图片],[其他保持不变的要素]
5. 提示词优化 Checklist
撰写完提示词后,对照以下清单检查:
- 素材标注清晰:每个 @素材 都有明确用途(角色/场景/动作参考/首帧等)
- 动作具体可视:避免抽象描述,使用可以"拍摄"的语言
- 时间线合理:15秒内的内容量适中(通常3-5个关键动作/场景切换)
- 情绪有标注:人物的表情、情绪、语气有明确描述
- 镜头有方向:至少指明是跟随/推近/固定/一镜到底
- 音效有暗示:描述环境音、对话内容、或指定音乐氛围
- 素材数量合理:混合输入不超过12个文件
- 时长匹配内容:内容量与选择的生成时长匹配(信息密度别过高)
6. 常见陷阱与最佳实践
避免的写法
- ❌ 纯技术参数堆砌(如"4K,HDR,60fps"——模型不一定响应所有参数)
- ❌ 超过15秒内容量的描述塞进一个提示词
- ❌ @素材标注含糊(如只写"参考这些图"而不说每张图的角色)
- ❌ 对话内容过长(音频同步有长度限制,每段对话宜简短有力)
推荐做法
- ✅ 先用5秒短视频测试提示词效果和产品保真度,满意后再生成15秒
- ✅ 用即梦先生成参考图(如角色设定图、场景图),再作为素材输入
- ✅ 有参考视频时优先用"参考@视频的运镜"而非文字描述运镜
- ✅ 商品广告中加"细节均有所展示"来提升产品保真度
- ✅ 带对话的场景标明语言(中文/英文/方言),模型支持多语言口型同步
- ✅ 复杂场景使用时间戳分段(0-3s / 3-6s / ...),让模型更精准理解节奏
- ✅ 可以在提示词中直接写画面内出现的文字/字幕内容