tts-voice-generator

文本转语音生成工具,支持浏览声音列表、选择声音、上传自定义音频(带文本内容)并命名保存、生成语音和查询任务状态等功能。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "tts-voice-generator" with this command: npx skills add seanfeng1234/tts-voice-generator

TTS 语音生成器

完整工作流程

┌─────────────┐    ┌──────────────────────┐    ┌─────────────┐    ┌─────────────┐
│ 1. 浏览声音  │ -> │ 2. 选择或上传声音     │ -> │ 3. 生成语音  │ -> │ 4. 获取结果  │
└─────────────┘    └──────────────────────┘    └─────────────┘    └─────────────┘

步骤说明:

  1. 浏览声音:查看可用声音列表
  2. 选择声音
    • 如果有合适的声音 → 说"用第 X 个声音"或"用 [声音名称]"
    • 如果没有合适的 → 上传自己的音频(需提供音频文件、声音名称、音频文本内容)
  3. 生成语音:提供文本内容,使用选中的声音生成
  4. 获取结果:等待任务完成,返回音频 URL

示例命令

1. 浏览可用声音

列出所有可用的声音

输出示例:

📋 可用声音列表:

  1. 派蒙 - 平静 (定制声音)
     试听文本:既然罗莎莉亚说足迹上有元素力...
  2. 龙某洋 (定制声音)
     试听文本:三十、功名尘与土八千里路云和月。
  ...

💡 使用方式:
  • 选择声音:说'用第 X 个声音'或'用 [声音名称]'
  • 上传自定义声音:说'上传我的声音'并提供音频文件、名称和音频内容

共 10 个声音

2. 选择已有声音生成

用第 1 个声音生成:你好,这是测试文本

用派蒙生成:春眠不觉晓,处处闻啼鸟

3. 上传自定义声音

格式:

上传我的声音:[文件路径],名字叫"[声音名称]",音频内容是"[音频文本]"

示例 1 - 本地文件路径:

上传我的声音:C:/audio/my_voice.wav,名字叫"温柔女声",音频内容是"春眠不觉晓,处处闻啼鸟"

示例 2 - 相对路径:

上传这个音频文件作为参考声音:./sample.wav,命名为"我的声音",文本内容是"白日依山尽,黄河入海流"

说明:

参数说明要求
音频文件WAV 或 MP3 格式建议 10-60 秒,一句话或一句诗词的录音
声音名称给声音起的名字如"温柔女声"、"成熟男声"等
音频内容音频中朗读的文本用于音色训练参考,必须与音频内容一致

4. 使用刚上传的声音生成

用温柔女声生成:欢迎使用我们的服务

5. 查询任务状态

查询任务状态:taskId_xxx

触发方式

当用户请求以下内容时触发:

类型示例
生成语音"生成语音" / "TTS" / "文本转语音"
浏览声音"列出声音" / "获取声音列表" / "有哪些声音"
上传声音"上传音频" / "添加声音" / "自定义声音" / "上传我的声音"
查询状态"查询任务状态" / "检查 TTS 进度"
选择声音生成"用第 X 个声音生成:[文本]" / "用 [声音名称] 生成:[文本]"
直接转换提供文本内容要求转换成语音

配置要求

首次使用

需要在 ~/.openclaw/config.json 中配置 API Key(与下载工具 Skill 共用):

{
    "datamass_api_key": "您的 API Key"
}

获取 API Key

  1. 访问 https://www.datamass.cn
  2. 注册并登录
  3. 创建 API Key
  4. 复制生成的 API Key 到配置文件中

功能特点

  • ✅ 先浏览声音列表,再决定是否上传自定义声音
  • ✅ 支持按序号选择声音("用第 2 个声音")
  • ✅ 支持按名称选择声音("用温柔女声")
  • ✅ 上传自定义音频时一步保存:音频文件 + 声音名称 + 音频文本
  • ✅ 异步任务处理,无需等待
  • ✅ 自动状态轮询
  • ✅ 音频文件保存到 OSS,24 小时有效
  • ✅ 自定义声音永久保存到数据库,可重复使用

核心功能

方法说明
start_tts_workflow()启动引导式交互流程
show_voice_list()显示可用声音列表(格式化输出)
list_voices()获取可用声音列表(原始数据)
select_voice(index)根据序号选择声音
generate_speech()提交 TTS 任务(支持 voice_index/voice_name/media_path)
check_task_status()查询任务状态
upload_audio()上传音频文件(支持 style_name 和 audio_text 参数)
add_custom_voice()添加定制声音(保存到数据库)
upload_and_add()一键上传并添加为定制声音(上传时同时保存音频文本)

注意事项

计费说明

  • TTS 服务按生成音频时长计费
  • 最低余额门槛:5 积分
  • 100 字以内:2 积分,超出部分每 100 字加 1 积分
  • 需要充值积分后使用

上传要求

  • 音频格式:WAV 或 MP3
  • 音频时长:建议 10-60 秒
  • 音频内容:一句话或一句诗词的清晰录音
  • 声音名称:自定义,用于后续调用
  • 音频文本:必须与音频中朗读的内容一致,用于音色训练参考

使用提示

  • 自定义声音上传后永久保存到数据库,可重复使用
  • 建议上传前先浏览可用声音列表,避免重复上传
  • 生成语音时可指定声音序号或名称
  • 任务提交后自动轮询状态,无需手动查询

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

gitlab-mr-reviewer

当需要审核 GitLab 合并请求、检查 MR diff 风险、发布 GitLab 审查评论、执行 approve/request changes,或发送 MR 审查通知时使用。

Registry SourceRecently Updated
1490whrime
General

Voice Transcriber Toolkit

Voice-to-Text Transcription Toolkit - 语音识别转文字,支持Whisper/Vosk引擎,批量处理,字幕导出 | Speech recognition & transcription with Whisper/Vosk engines, batch processing, su...

Registry SourceRecently Updated
General

Gigo Lobster Taster

🦞 GIGO · gigo-lobster-taster: 正式试吃模式:跑完整评测,默认上传云端、生成个人结果页并进入排行榜。 Triggers: 试吃我的龙虾 / 品鉴我的龙虾 / lobster taste / lobster taster.

Registry SourceRecently Updated
General

Gigo Lobster Local

🦞 GIGO · gigo-lobster-local: 本地模式:跑完整评测,但不上云、不注册个人结果页,证书二维码回到官网首页。 Triggers: 本地试吃龙虾 / 离线试吃龙虾 / local lobster taste / offline lobster taste.

Registry SourceRecently Updated