ChatTTS 本地语音合成
快速开始
使用方法
在消息中要求生成语音,例如:
- "用语音回复我"
- "把这段话读出来:[文字内容]"
- "生成语音:今天天气真好"
输出格式
使用 <qqvoice> 标签发送语音文件:
<qqvoice>/path/to/output.wav</qqvoice>
技术细节
模型信息
- 模型: ChatTTS
- 语言: 中文(主要优化)
- 采样率: 24000Hz
- 格式: WAV/MP3
- 运行: 本地 GPU/CPU
参数配置
| 参数 | 默认值 | 说明 |
|---|---|---|
| speed | 1.0 | 语速 (0.5-2.0) |
| pitch | 1.0 | 音调 (0.5-2.0) |
| temperature | 0.3 | 随机性 (0-1) |
| top_k | 20 | 采样参数 |
| top_p | 0.7 | 采样参数 |
脚本调用
使用 scripts/tts.py 生成语音:
python3 scripts/tts.py "要转换的文字" --output output.wav
参数
text: 要转换的文字(必填)--output: 输出文件路径--speed: 语速调节--pitch: 音调调节--seed: 随机种子(固定音色)
依赖安装
首次使用需要安装依赖:
pip install ChatTTS torch torchaudio
注意事项
- 首次运行会下载模型(约 500MB)
- GPU 加速可选,CPU 也能运行但较慢
- 长文本建议分段处理(<500 字/段)
- 音色由 seed 参数控制,固定 seed 可复现相同音色