TTS 语音生成器

完整工作流程

┌─────────────┐    ┌──────────────────────┐    ┌─────────────┐    ┌─────────────┐
│ 1. 浏览声音  │ -> │ 2. 选择或上传声音     │ -> │ 3. 生成语音  │ -> │ 4. 获取结果  │
└─────────────┘    └──────────────────────┘    └─────────────┘    └─────────────┘

步骤说明：

浏览声音：查看可用声音列表
选择声音：
- 如果有合适的声音 → 说"用第 X 个声音"或"用 [声音名称]"
- 如果没有合适的 → 上传自己的音频（需提供音频文件、声音名称、音频文本内容）
生成语音：提供文本内容，使用选中的声音生成
获取结果：等待任务完成，返回音频 URL

示例命令

1. 浏览可用声音

列出所有可用的声音

输出示例：

📋 可用声音列表：

  1. 派蒙 - 平静 (定制声音)
     试听文本：既然罗莎莉亚说足迹上有元素力...
  2. 龙某洋 (定制声音)
     试听文本：三十、功名尘与土八千里路云和月。
  ...

💡 使用方式：
  • 选择声音：说'用第 X 个声音'或'用 [声音名称]'
  • 上传自定义声音：说'上传我的声音'并提供音频文件、名称和音频内容

共 10 个声音

2. 选择已有声音生成

用第 1 个声音生成：你好，这是测试文本

或

用派蒙生成：春眠不觉晓，处处闻啼鸟

3. 上传自定义声音

格式：

上传我的声音：[文件路径]，名字叫"[声音名称]"，音频内容是"[音频文本]"

示例 1 - 本地文件路径：

上传我的声音：C:/audio/my_voice.wav，名字叫"温柔女声"，音频内容是"春眠不觉晓，处处闻啼鸟"

示例 2 - 相对路径：

上传这个音频文件作为参考声音：./sample.wav，命名为"我的声音"，文本内容是"白日依山尽，黄河入海流"

说明：

参数	说明	要求
音频文件	WAV 或 MP3 格式	建议 10-60 秒，一句话或一句诗词的录音
声音名称	给声音起的名字	如"温柔女声"、"成熟男声"等
音频内容	音频中朗读的文本	用于音色训练参考，必须与音频内容一致

4. 使用刚上传的声音生成

用温柔女声生成：欢迎使用我们的服务

5. 查询任务状态

查询任务状态：taskId_xxx

触发方式

当用户请求以下内容时触发：

类型	示例
生成语音	"生成语音" / "TTS" / "文本转语音"
浏览声音	"列出声音" / "获取声音列表" / "有哪些声音"
上传声音	"上传音频" / "添加声音" / "自定义声音" / "上传我的声音"
查询状态	"查询任务状态" / "检查 TTS 进度"
选择声音生成	"用第 X 个声音生成：[文本]" / "用 [声音名称] 生成：[文本]"
直接转换	提供文本内容要求转换成语音

配置要求

首次使用

需要在 ~/.openclaw/config.json 中配置 API Key（与下载工具 Skill 共用）：

{
    "datamass_api_key": "您的 API Key"
}

获取 API Key

访问 https://www.datamass.cn
注册并登录
创建 API Key
复制生成的 API Key 到配置文件中

功能特点

✅ 先浏览声音列表，再决定是否上传自定义声音
✅ 支持按序号选择声音（"用第 2 个声音"）
✅ 支持按名称选择声音（"用温柔女声"）
✅ 上传自定义音频时一步保存：音频文件 + 声音名称 + 音频文本
✅ 异步任务处理，无需等待
✅ 自动状态轮询
✅ 音频文件保存到 OSS，24 小时有效
✅ 自定义声音永久保存到数据库，可重复使用

核心功能

方法	说明
`start_tts_workflow()`	启动引导式交互流程
`show_voice_list()`	显示可用声音列表（格式化输出）
`list_voices()`	获取可用声音列表（原始数据）
`select_voice(index)`	根据序号选择声音
`generate_speech()`	提交 TTS 任务（支持 voice_index/voice_name/media_path）
`check_task_status()`	查询任务状态
`upload_audio()`	上传音频文件（支持 style_name 和 audio_text 参数）
`add_custom_voice()`	添加定制声音（保存到数据库）
`upload_and_add()`	一键上传并添加为定制声音（上传时同时保存音频文本）

注意事项

计费说明

TTS 服务按生成音频时长计费
最低余额门槛：5 积分
100 字以内：2 积分，超出部分每 100 字加 1 积分
需要充值积分后使用

上传要求

音频格式：WAV 或 MP3
音频时长：建议 10-60 秒
音频内容：一句话或一句诗词的清晰录音
声音名称：自定义，用于后续调用
音频文本：必须与音频中朗读的内容一致，用于音色训练参考

使用提示

自定义声音上传后永久保存到数据库，可重复使用
建议上传前先浏览可用声音列表，避免重复上传
生成语音时可指定声音序号或名称
任务提交后自动轮询状态，无需手动查询

tts-voice-generator

Safety Notice

Copy this and send it to your AI assistant to learn

TTS 语音生成器

完整工作流程

示例命令

1. 浏览可用声音

2. 选择已有声音生成

3. 上传自定义声音

4. 使用刚上传的声音生成

5. 查询任务状态

触发方式

配置要求

首次使用

获取 API Key

功能特点

核心功能

注意事项

计费说明

上传要求

使用提示

Source Transparency

Related Skills

gitlab-mr-reviewer

Voice Transcriber Toolkit

Gigo Lobster Taster

Gigo Lobster Local