Image Prompt Patterns
可复用的 AI 图像生成 prompt 模式库。
⚠️ 默认优先级(强触发规则)
当用户请求以下任一类型时,必须先使用本 skill,不要跳到 gencut-image 或其他执行工具:
- "写 prompt" / "给我 prompt" / "想个 prompt" / "prompt 怎么写"
- "给我 XX 图的提示词" / "用 MJ/Nano/Flux 生成的文字"
- 任何只要文字 prompt 文本、用户自己拿去跑图的需求
- 讨论 prompt 结构、对比 prompt 风格、优化已有 prompt
只有用户明确说以下词汇时才考虑执行层(gencut-image):
- "生成" + 具体工具名(如"用 gencut 生成")
- "调用" / "执行" / "跑" + API/CLI
- 明确的 task routing keyword:
generate_three_view,generate_first_frame,generate_first_frame_batch,generate_three_view_batch - 在 NemoVideo workflow 的制作流水线中(脚本→三视图→首帧→视频)
模糊情况的默认行为:先走本 skill 写 prompt → 确认后再问用户是否需要调用执行工具。
When to use
调用场景:
- 用户要生成肖像/海报/角色设定/UI mockup/分镜
- 用户模糊地说"给我想个 prompt",但没指定工具
- 需要从一个参考风格迁移到新主题
- 想对比同一构图在不同模型上的效果
- 优化或重写已有的 prompt
不适用场景(→ 走 gencut-image):
- gencut CLI 工作流(生产流水线)
- 专业短片分镜的系统性生成(脚本→三视图→首帧→视频)
- 需要写入 project.json 的视频制作任务
核心 prompt 结构(五种流派)
基于 126 个 GPT Image 2 实战 prompt 的实证分析归纳(数据:
raw-data/awesome-gpt-image-2-zh.md)
类型 A:写实摄影 / 商业视觉(8 层结构)
适用:肖像、产品、社媒 mockup、伪截图。 一条高质量 prompt 按这个顺序组织信息,遗漏任何一层都会丢细节:
[1. 摄影/媒介] + [2. 光线与色彩] + [3. 构图景别] +
[4. 主体(外貌/表情/服装,层层细化)] +
[5. 姿势/动作/视线方向] +
[6. 环境/背景(前景/中景/远景分开描述)] +
[7. 材质/质感修饰词] + [8. 后期/胶片颗粒/色彩分级]
典型权重分配:主体 50-60%,环境 20-30%,技术/风格 15-20%。 字数范围:150-250 词。
类型 B:电影分镜 / 风格化绘画(5 层结构)
适用:Jibaro/Ghibli/漫画/油画风分镜。
[1. 主体 + 动作] + [2. 关键视觉细节] +
[3. 光线色彩词汇] +
[4. 风格锪点 (Named artist / work / medium)] +
[5. 比例 + 语境]
风格锪点(一个词如 "Jibaro style")替代了摄影/材质/后期 3 层的细节控制。 字数范围:40-80 词。更长反而会稀释风格锪点。
→ 详见 references/cinematic-storyboard.md
类型 C:结构化 JSON Prompt(伪代码结构)
适用:信息密集型图像—— UI mockup、landing page、数据报告、多区块活动海报、信息图。
核心思路:把 prompt 写成 JSON / 结构化标记语言,模型能精确解析每个区块和字段。
{
"type": "[图像类型]",
"theme": "[整体风格描述]",
"sections": [
{
"id": "[区块名]",
"layout": "[布局方式]",
"content": { ... }
}
]
}
独有优势:
- 可寻址性:模型准确知道哪块信息属于哪里
- 参数化:用
{argument name="..." default="..."}一条 prompt 变模板 - 高密度:10+ 元素的图像不会乱
字数范围:结构完整比字数重要,典型 200-500 行。
→ 详见 references/structured-json-prompt.md(含 5 种 JSON 组织模式 + 黄金三字段 + 分类模板库)
类型 D:文化融合 / 风格锚点 Mashup(极简公式)
适用:用两个文化符号的特质组合生成独特视觉。
「A 的 X 特质」+「B 的 Y 特质」の融合 → 生成 C
例:「いらすとや」のほのぼのとした雰囲気 + 「霞ヶ関スライド」の圧倒的な情報密度 → ポンチ絵
关键:
- 锚点的特质化提取(不是全盘融合,只取各自核心特质)
- 文化锚点用原语言(日式→日语、中式→中文、西方→英文)
- 字数 30-80 字,越短锚点越强
类型 E:场景化叙事(多主体动作场景)
适用:动漫战斗、多人物场面、动作漫画式构图。
[1. 总体风格] + [2. 前景主体位置 + 动作 + 能量特效] +
[3. 后景主体位置 + 动作 + 能量特效] +
[4. 环境物理效果(碎裂/尘土/水花)] +
[5. 场景内文字(如招牌)] + [6. 光线 + 视角]
关键技巧:
- 明确前/后景空间关系(
in the foreground/in the background to the right) - 能量 + 物理双层特效(能量漩涡 + 地板碎裂缺一不可)
- 文字嵌入场景(招牌/屏幕内容,不是 overlay)
- 动态 pose 动词库(forward-thrusting / leaping / mid-air twist)
字数范围:100-200 词。
跨流派机制:参数化({argument})
实证:126 个案例里 >95% 都用了参数化。不是高级技巧,是默认姿势。
{argument name="参数名" default="默认值"}
可以嵌套在任何流派的 prompt 里(字符串 / JSON 值 / 数组元素)。
→ 详见 references/parametric-template.md(优先级、决策原则、模板库)
关键技巧
1. 分层堆叠(Layered Stacking)
不是一句话描述"美女",而是:
- 面部结构(eyes shape / nose bridge / jawline)
- 皮肤质感(undertone / specular highlights / micro pores)
- 妆容状态(natural dewy / glossy / subtle flush)
- 发型细节(messy high ponytail / loose strands falling around face)
→ 模型对具体解剖学词汇比对形容词("beautiful")响应更好
2. 矛盾修饰(Controlled Contradiction)
好 prompt 常有刻意的矛盾对:
- "seductive playful yet slightly vulnerable"
- "intensely seductive with soft doe eyes"
- "harsh fluorescent light mixed with warm neon"
→ 制造张力,避免扁平化表情和光线
3. 光源命名(Named Light Sources)
不说"good lighting",说:
- "harsh convenience store fluorescent from above"
- "pink and blue neon glow from window outside"
- "warm practical lamp on bedside table"
→ 多光源叠加 = 立体感 + 电影感
4. 相机/胶片元语言
- 胶片感:
35mm film photography, authentic film grain, slight color cast - 电影感:
cinematic editorial style, shallow depth of field, anamorphic lens flare - 手机抓拍感:
iPhone snapshot, slightly blurry, amateur composition - CCD闪光:
CCD digital camera flash, harsh on-camera flash, 2000s aesthetic
5. 长宽比 + 用途明确化
末尾加用途说明比只加比例好:
- ❌
9:16 - ✅
9:16 mobile screenshot aspect ratio, vertical portrait for social media
分类案例库
快速定位:
| 需求 | 查阅 |
|---|---|
| 人物肖像 / 写真风 | references/portrait.md |
| 海报 / 插画 / 信息图 | references/poster.md |
| 角色设定表 / 三视图 / 动作分镜表(movement sheet) | references/character-sheet.md |
| UI / 伪截图 / 社媒 mockup | references/ui-mockup.md |
| 场景合成 / 风格迁移 | references/scene-composite.md |
| 电影分镜 / 风格化绘画(Jibaro / Ghibli / 油画感) | references/cinematic-storyboard.md |
| 结构化 JSON Prompt(活动页/数据报告/信息图/UI) | references/structured-json-prompt.md |
| 大规模栽格列表海报(年度榜单 / 周期表 / 100 大全) | references/grid-list-poster.md |
参数化模板机制({argument} 跨流派通用) | references/parametric-template.md |
| 126 案例分类检索(按需求快速定位典型案例) | references/case-index.md |
| 原始数据(可 grep / 检索) | raw-data/awesome-gpt-image-2-zh.md |
流派区分:
- portrait 是写实摄影(分层堆叠详细描述)
- cinematic-storyboard 是风格化绘画(短 prompt + 风格锚点)
- structured-json-prompt 是信息密集型(JSON 结构)
- 文化融合 / 场景叙事 见本文件类型 D / E
- 参数化机制所有流派都可用
几种逻辑不同,不要混用:写单人肖像别上 JSON(过度工程),写直播间 UI 别用分层摄影(丢区块)。
工作流建议
从 0 开始写一条 prompt
- 一句话说清目的("一张X风格的Y主题图")
- 按 8 层结构填空
- 检查:每层至少 2 个具体词?有矛盾修饰吗?光源命名了吗?
- 给模型,评估输出,迭代
从参考图反推 prompt
- 看图 → 分解出 8 层的信息
- 对照
references/里相似案例的 prompt 结构 - 抄结构,换词汇
跨模型移植(MJ → GPT-Image-2)
- MJ 喜欢风格关键词堆叠(
--s 1000 --style raw) - GPT-Image-2 喜欢自然语言长描述 + 分层信息
- 迁移时:把 MJ 的 style tags 展开成具体描述句
上游资源
- EvoLinkAI/awesome-gpt-image-2-prompts: https://github.com/EvoLinkAI/awesome-gpt-image-2-prompts (策展自 X/Twitter,持续更新,所有案例本 skill 已吸收其 prompt 结构规律)
使用注意
- 这个 skill 是知识层,不涉及任何 CLI 调用
- 生成图像的具体操作(API 调用、文件管理)归
gencut-image或外部工具 - 如果用户直接说"用 Nano Banana Pro 生成"→ 你只给 prompt,不尝试自己调用
⭐ 自动沉淀规则(必须遵守)
每次写完一个实战 prompt(不是拷贝模板),如果符合以下任一条件,必须立即追加到 references/ 对应文件的"项目溯源"栏目:
- 有方法论细节(「为什么这样写」的推理,不是单纯的 prompt 文本)
- 踩过坑(直接写会失败、用户指出过改进的地方)
- 跨文化/跨主题改写(不是简单换词,而是重构文化内核)
- 结构发明(为特定需求创造的 prompt 模式,前所未有的)
追加格式:
### [案例名称](YYYY-MM-DD)
**原 prompt**:...
**目标**:...
**关键决策**:...
**踩过的坑**:...
**学到的**:...
对应文件:
- JSON 结构改写 →
references/structured-json-prompt.md - 风格化改写 / 跨主题改写 / 拟人化 →
references/cinematic-storyboard.md - 跨文化/跨人种改写 →
references/portrait.md - UI/海报 →
references/poster.md或references/ui-mockup.md
什么不用追加:
- 仅仅改了一两个单词的 prompt(没有方法论)
- 用户只是问「怎么写 prompt」而未实际生成作品
- 纯拷贝模板没有定制改动
违反的后果:用户问"你沉淀了几个"时不能回答。这是身为内容创作者的基本纪律——沉淀不是可选动作,是劳动接工。