qwen-tts

阿里云千问语音合成(TTS)技能,支持将文本转换为自然语音。当用户要求朗读、语音合成、文字转语音、TTS、读一段话、把文字转成声音时使用。支持多种音色(中文/英文/方言),支持流式输出边合成边播放。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "qwen-tts" with this command: npx skills add lanlan314/qwen-tts-lan

千问语音合成技能 (qwen-tts)

⚠️ 环境变量配置

基础配置(使用任何脚本都需要)

环境变量说明获取方式
DASHSCOPE_API_KEY千问 API 密钥阿里云百炼控制台

飞书配置(仅 speak_and_send.py 需要)

speak.sh 只需要 DASHSCOPE_API_KEY。如果需要发送语音到飞书,还需配置:

环境变量说明获取方式
FEISHU_APP_ID飞书应用 App ID飞书开放平台应用凭证
FEISHU_APP_SECRET飞书应用 App Secret飞书开放平台应用凭证
FEISHU_USER_ID接收语音的飞书用户 ID飞书用户 open_id

最小配置(只需 DASHSCOPE_API_KEY):

export DASHSCOPE_API_KEY="sk-xxxxx"

完整配置(包含飞书发送):

export DASHSCOPE_API_KEY="sk-xxxxx"
export FEISHU_APP_ID="cli_xxxxx"
export FEISHU_APP_SECRET="xxxxx"
export FEISHU_USER_ID="ou_xxxxx"

快速使用

基本语音合成(同步接口)

使用 curl 调用千问 TTS:

curl -X POST 'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \
  -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "qwen3-tts-flash",
    "input": {
      "text": "要转换的文本内容",
      "voice": "Cherry",
      "language_type": "Chinese"
    }
  }'

常用模型

模型特点适用场景
qwen3-tts-flash快速、便宜短文本、导航、通知、教育课件
qwen3-tts-instruct-flash支持指令控制情感有声书、广播剧、游戏配音
qwen3-tts-vd声音设计品牌定制、从零设计音色
qwen3-tts-vc声音复刻基于样本复刻真人音色

常用音色(voice 参数)

音色名语言/风格说明
Cherry中文女声,活泼
Azure英文女声,标准
Alexander英文男声
Huogeng中文女声,温柔
Shanbin中文男声,沉稳
Emma英文女声,轻快

更多音色请参见 references/voices.md

常用参数

参数说明默认值
text要转换的文本,建议不超过300字符必填
voice音色名称Cherry
language_type文本语言:Chinese / English / yue(粤语)等自动检测
instructions情感/风格指令(仅 instruct 模型)-

输出格式

音频 URL 有效期 24小时,返回格式为 wav。

执行流程

  1. 检查环境变量:确保 DASHSCOPE_API_KEY 已设置
  2. 构建请求:根据文本和音色参数构建 JSON
  3. 调用 API:POST 到千问 TTS 接口
  4. 下载音频:从响应中提取 URL 并下载
  5. 返回结果:音频文件路径或发送给你

示例:中文朗读

curl -X POST 'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \
  -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "qwen3-tts-flash",
    "input": {
      "text": "你好,我是千问语音助手,今天天气真不错。",
      "voice": "Cherry",
      "language_type": "Chinese"
    }
  }'

脚本说明

本技能包含两个脚本,按需使用:

scripts/speak.sh

纯 Bash 脚本,仅生成本地音频文件,不需要飞书凭证

# 只需要 DASHSCOPE_API_KEY
./speak.sh "要转换的文本" [音色]
# 输出: /tmp/qwen_tts_xxx.ogg

scripts/speak_and_send.py

Python 脚本,生成 TTS 并发送到飞书,需要配置飞书凭证

# 需要 DASHSCOPE_API_KEY + FEISHU_* 环境变量
python3 speak_and_send.py "要说的文本" [音色]
# 自动发送到配置的 FEISHU_USER_ID

参考资料

完整音色列表和 API 文档请参见:

依赖说明

  • ffmpeg - 音频格式转换(脚本需要)
  • jq - JSON 处理(speak.sh 需要)
  • python3 + requests - speak_and_send.py 需要

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Multi Edge-TTS CN

Edge-TTS 在线语音合成 skill。基于微软 Edge TTS 引擎,生成速度快(1-2秒),支持多种音色和输出格式。同时支持飞书(OGG/Opus)和企业微信(AMR)。默认音色 xiaoxiao_lively。需联网。

Registry SourceRecently Updated
General

vedic-destiny

吠陀命盘分析中文入口。用于完整命盘研判、命主盘 Rashi chart 与九分盘 Navamsha chart 联读、既往事件回看、出生时间稳定度判断、事业主题、婚姻主题、时空盘专题,以及基于 Jagannatha Hora PDF、星盘截图或文本命盘数据的系统拆盘。当用户提到完整星盘、事业方向、婚姻问题、关系窗...

Registry SourceRecently Updated
General

One Person Company OS

Build a visual operating cockpit for an AI-native one-person company across promise, buyer, product, delivery, cash, learning, and assets. / 为 AI 一人公司建立可视化经营...

Registry SourceRecently Updated
General

健康追踪

健康追踪技能 - 追踪饮水、睡眠、步数等健康数据,JSON存储。

Registry SourceRecently Updated