儿童绘本生成器

一、概述

儿童绘本生成器是一个基于百度文心大模型图像生成模型能力的 OpenClaw Skill，封装了 Baidu AI Studio 的 ERNIE-Image-Turbo API，通过提炼儿童故事核心画面，通过文本生成图像（Text-to-Image）核心能力生成儿童绘本。Skill 通过 Python 脚本调用 OpenAI 兼容接口，实现与百度文心图像生成服务的无缝对接。

1.1 设计目标

目标	说明
易用性	单条命令即可完成图像生成，无需手动处理 API 调用细节
灵活性	支持多种分辨率、支持命令行传参和环境变量配置 API Key
分辨率	1024x1024/1376x768/1264x848/ 1200x896/896x1200/848x1264/768x1376
跨平台	基于 Python 3.7+ 和 `openai` 库，兼容 Windows/macOS/Linux

1.2 核心能力矩阵

能力	支持状态	备注
文本生成图像	✅	核心功能，支持详细 prompt
多分辨率输出	✅	7 种预设分辨率
中文文字渲染	✅	可在 prompt 中指定中文文字内容
批量生成	❌	当前版本单图生成
风格迁移	⚠️	依赖 prompt 描述，无独立风格参数

二、架构设计

2.1 组件关系图

输入儿童故事，或者儿童故事主题
    ↓
通过大模型生成故事关键画面prompt
    ↓
调用ERNIE-Image 生成绘本图

2.2 数据流

用户输入故事内容，或者故事主题
    │
    ▼

生成故事多个关键画面Prompt
    │
    ▼
[generate_image.py]
    │
    ├── 1. 解析命令行参数 (argparse)
    │      ├── --prompt: 图像描述文本
    │      ├── --filename: 输出文件路径
    │      ├── --resolution: 输出分辨率
    │      └── --api-key: API 密钥（可选）
    │
    ├── 2. 解析 API Key（优先级递减）
    │      ├── ① --api-key 参数
    │      ├── ② ERNIE-Image_API_KEY 环境变量
    │      ├── ③ ERNIE_Image_API_KEY 环境变量
    │
    ├── 3. 初始化 OpenAI 客户端
    │      ├── api_key = 解析结果
    │      ├── base_url = "https://aistudio.baidu.com/llm/lmapi/v3"
    │      └── 模型 = "ERNIE-Image-Turbo"
    │
    ├── 4. 调用 API
    │      ├── POST /images/generations
    │      ├── payload: {model, prompt, size, response_format: "b64_json"}
    │      └── 接收 base64 编码图像数据
    │
    └── 5. 保存文件
           ├── 创建输出目录（如果不存在）
           ├── base64 解码 → PNG 字节流
           └── 写入磁盘

三、核心模块详解

3.1 参数解析模块

文件: scripts/generate_image.py

使用 Python 标准库 argparse 实现命令行参数解析，设计为全显式传参，无交互式输入：

参数	简写	必填	类型	默认值	说明
`--prompt`	`-p`	✅	string	-	图像描述文本
`--filename`	`-f`	✅	string	-	输出文件路径（支持绝对/相对路径）
`--resolution`	`-r`	❌	choice	`1024x1024`	输出分辨率
`--api-key`	`-k`	❌	string	`None`	API 密钥（覆盖环境变量）

设计决策：

--filename 为必填项而非自动生成：赋予用户完全的文件命名控制权
--resolution 使用 choices 限制：避免传入 API 不支持的分辨率导致报错
无 --output-dir 参数：通过 --filename 中的路径信息直接推导

3.2 API Key 解析模块

def get_api_key(provided_key: str | None) -> str | None:
    """Get API key from argument first, then environment."""
    if provided_key:
        return provided_key
    for key in ["ERNIE-Image_API_KEY", "ERNIE_Image_API_KEY", "BAIDU_API_KEY"]:
        value = os.environ.get(key)
        if value:
            return value
    return None

多环境变量兼容设计：

环境变量名	优先级	设计原因
`ERNIE-Image_API_KEY`	1（最高）	官方推荐命名，与 Skill 名称一致
`ERNIE_Image_API_KEY`	2	兼容下划线命名（部分系统不支持连字符）

安全考量：

命令行传参 --api-key 会暴露在进程列表中（ps 可见），建议仅在临时场景使用
生产环境推荐设置环境变量，避免密钥泄露

3.3 OpenAI 客户端封装

client = OpenAI(
    api_key=api_key,
    base_url="https://aistudio.baidu.com/llm/lmapi/v3"
)

关键设计：

使用 openai Python SDK（非百度原生 SDK），利用其 OpenAI 兼容接口 能力
base_url 指向百度 AI Studio 的 OpenAI 兼容端点
模型名称硬编码为 "ERNIE-Image-Turbo"，这是当前百度文心图像生成的默认模型

3.4 API 调用与响应处理

img = client.images.generate(
    model="ERNIE-Image-Turbo",
    prompt=contents,
    size=output_resolution,
    response_format="b64_json",
)

# 解码并保存
image_bytes = base64.b64decode(img.data[0].b64_json)
with open(output_path, "wb") as f:
    f.write(image_bytes)

响应格式：

response_format="b64_json"：返回 base64 编码的 PNG 图像数据
不返回 URL（避免临时链接失效问题）
直接内存解码写入磁盘，无中间临时文件

四、分辨率系统设计

4.1 支持的分辨率列表

分辨率	宽高比	适用场景	备注
`1024x1024`	1:1	头像、方形插画	默认分辨率
`1376x768`	16:9	横屏壁纸、视频封面	宽屏
`1264x848`	~3:2	照片比例	接近单反相机比例
`1200x896`	~4:3	传统屏幕比例	兼容旧设备
`896x1200`	~3:4	竖屏照片	类似手机竖拍
`848x1264`	~2:3	竖屏壁纸	接近手机屏幕
`768x1376`	~9:16	手机竖屏壁纸	全面屏手机适配

五、Prompt 工程指南

5.1 Prompt 传递策略

Skill 采用透传优先策略：

默认将用户描述原样传递给 API
仅在用户描述明显不足时进行补充优化

5.2 高命中率 Prompt 模板

Create an image of: <主体描述>
Style: <艺术风格>
Composition: <构图/镜头>
Lighting: <光影效果>
Background: <背景描述>
Color palette: <色彩方案>
Avoid: <需要避免的内容>

5.3 中文文字渲染技巧

ERNIE-Image 支持在图像中渲染中文文字，关键要点：

明确指定文字内容：在 prompt 中直接写出要显示的中文
指定字体风格：如「行书」「楷书」「宋体」等
指定位置和样式：如「顶部居中」「白色字体带金色光晕」
控制大小：避免文字过大遮挡主体或过小无法辨认

示例：

In the upper portion of the image, elegant vertical Chinese calligraphy 
text arranged in two lines: first line '山再高，往上攀，总能登顶；' 
and second line '路再长，走下去，定能到达。' — the text is rendered 
in a refined semi-cursive Chinese calligraphy style (行书), white color 
with subtle golden glow effect, positioned in the upper third area.

六、错误处理与故障排查

6.1 预检清单（Preflight）

在调用脚本前，Agent 应检查：

#  API Key 是否可用
test -n "$ERNIE-Image_API_KEY" || echo "API Key 未设置"

6.2 常见错误与解决方案

错误信息	原因	解决方案
`Error: No API key provided.`	API Key 未提供	设置环境变量或传 `--api-key`
401/403 权限错误	Key 无效或过期	更换有效 Key
配额超限错误	调用次数达到上限	等待配额重置或升级账户
图像生成失败	Prompt 包含敏感内容	修改 prompt 避免违规描述

6.3 调试模式

当前脚本无独立 --verbose 参数，调试时可：

检查命令行参数是否正确传递
验证环境变量是否加载到当前进程
手动测试 API 连通性：curl https://aistudio.baidu.com/llm/lmapi/v3

七、安全设计

7.1 密钥管理

场景	风险等级	建议做法
命令行传参 `--api-key`	⚠️ 中	临时使用，避免在共享环境使用
用户级环境变量	✅ 低	推荐方案，仅当前用户可见
系统级环境变量	⚠️ 中	多用户共享，注意权限控制
硬编码在脚本中	❌ 高	严禁，会泄露到版本控制

7.2 输入安全

Prompt 内容直接传递给百度 API，无本地过滤
依赖百度服务端的内容安全策略
敏感/违规内容会被 API 拒绝并返回错误

7.3 输出安全

生成的图像保存到用户指定路径
脚本自动创建父目录（mkdir(parents=True)）
无文件覆盖确认，同名文件直接覆盖

八、扩展性设计

8.1 当前限制

限制项	说明	未来改进方向
单图生成	每次调用仅生成一张	支持 `--batch` 批量生成
无回调机制	生成完成后仅打印路径	支持 webhook/消息通知
无进度反馈	长时间生成无中间状态	添加进度条或流式输出
固定模型	仅支持 ERNIE-Image-Turbo	支持模型选择参数
无元数据	输出 PNG 无 EXIF 信息	嵌入生成参数到图像元数据

8.2 与其他 Skill 的协作

协作场景	方式	示例
图像 → 文档	插入 docx/pptx	使用 `docx`/`pptx` Skill 将生成图像插入文档
图像 → 云存储	上传备份	使用 `cloud-upload-backup` Skill 上传生成图像
图像 → 展示	浏览器查看	使用 `xbrowser` Skill 打开生成图像预览
批量 → 自动化	定时任务	使用 `qclaw-cron-skill` 定时生成图像

九、使用示例

9.1 基础生成

python scripts/generate_image.py \
  --prompt "A serene Japanese garden with cherry blossoms" \
  --filename "japanese-garden.png" \
  --resolution 1024x1024

9.2 手机壁纸（竖屏）

python scripts/generate_image.py \
  --prompt "A mystical dark fantasy meadow with a glowing-eyed kitten..." \
  --filename "wallpaper.png" \
  --resolution 768x1376 \
  --api-key "your-api-key-here"

十、版本历史

版本	日期	变更内容
1.0.1	2026-04-25	初始版本，支持文生图、图生图、7种分辨率

十一、参考资源

百度 AI Studio: https://aistudio.baidu.com
OpenAI Python SDK: https://github.com/openai/openai-python
https://aistudio.baidu.com/blog/detail/794723628346373
https://aistudio.baidu.com/ernieimage
https://aistudio.baidu.com/modelsdetail/46030/intro

儿童绘本生成器

Safety Notice

Copy this and send it to your AI assistant to learn

儿童绘本生成器

一、概述

1.1 设计目标

1.2 核心能力矩阵

二、架构设计

2.1 组件关系图

2.2 数据流

三、核心模块详解

3.1 参数解析模块

3.2 API Key 解析模块

3.3 OpenAI 客户端封装

3.4 API 调用与响应处理

四、分辨率系统设计

4.1 支持的分辨率列表

五、Prompt 工程指南

5.1 Prompt 传递策略

5.2 高命中率 Prompt 模板

5.3 中文文字渲染技巧

六、错误处理与故障排查

6.1 预检清单（Preflight）

6.2 常见错误与解决方案

6.3 调试模式

七、安全设计

7.1 密钥管理

7.2 输入安全

7.3 输出安全

八、扩展性设计

8.1 当前限制

8.2 与其他 Skill 的协作

九、使用示例

9.1 基础生成

9.2 手机壁纸（竖屏）

十、版本历史

十一、参考资源

Source Transparency

Related Skills

Memory Association

短链接生成器

AI信号筛选

表情包生成器