moss-ttsd

MOSI Studio 双人对话合成(moss-ttsd):将两个角色的对话文本合成为 单段连续音频,两人声音自然交替。 当前版本限制:仅支持 2 人对话,仅支持中文和英文。 触发词:多说话人、双人对话、对话合成、两个角色、两种声音、两个人说话、 "multi-speaker"、"dialogue synthesis"、"两人对话"。 注意:如果用户要求超过 2 个说话人,需明确告知当前版本限制, 建议分段合成后拼接。 在飞书渠道:合成完成后优先发送语音气泡,不要发文件附件, 不要只回文字说"已生成"。具体发送方法参见 mosi-tts skill 第 5 节。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "moss-ttsd" with this command: npx skills add mkkb473/moss-ttsd

MOSS-TTSD 双人对话合成

将两个角色的对话文本合成为一段连续音频,两个声音自然交替出现。

当前版本限制

  • 仅支持 2 个说话人(S1 / S2)
  • 仅支持中文英文,其他语言不可用
  • 不支持中英混合超过50%比例的文本

快速开始

脚本路径:~/.openclaw/skills/moss-ttsd/scripts/mosi_dialogue.sh

bash ~/.openclaw/skills/moss-ttsd/scripts/mosi_dialogue.sh \
  --text "[S1] 你好,今天感觉怎么样?
[S2] 还不错,谢谢你问!你呢?
[S1] 我也挺好的,最近天气真舒服。
[S2] 是啊,特别适合出去走走。" \
  --voice1 2001257729754140672 \
  --voice2 2002941772480647168 \
  --output ~/.openclaw/workspace/dialogue.wav

文本格式

每行以 [S1][S2] 开头,标识说话人,换行分隔:

[S1] 第一句话
[S2] 回应的话
[S1] 继续说
[S2] 继续回应

注意

  • 不要在 [S1] / [S2] 标签内加其他标点
  • 每行只能有一个说话人
  • 建议每行文字不超过 100 字

音色选择

mosi-tts skill 的内置音色列表中各为 S1、S2 挑选:

音色 ID名称风格
2001257729754140672阿树随性自然(男,默认)
2001931510222950400程述播客理性(男)
2002941772480647168阿宁温柔亲切(女)
2020009311371005952台湾女声柔和疗愈(女)
2020008594694475776北京男声清晰标准(男)
2001898421836845056子琪活力明亮(女)
2001910895478837248小满甜美开朗(女)
2002991117984862208梁子专业沉稳(男)

也可使用通过 mosi-tts skill 克隆得到的自定义 voice_id。


完整参数说明

--text,    -t  TEXT    对话文本(必填,含 [S1]/[S2] 标签)
--voice1,  -1  ID      S1 的音色 ID(必填)
--voice2,  -2  ID      S2 的音色 ID(选填,不填则同 S1)
--output,  -o  PATH    输出 WAV 路径
                       (默认: ~/.openclaw/workspace/dialogue.wav)
--duration,-d  SECS    预期总时长(秒,可选,影响语速)
--api-key, -k  KEY     覆盖 MOSI_TTS_API_KEY 环境变量

环境准备

API Key 配置同 mosi-tts skill,读取 MOSI_TTS_API_KEY 环境变量。 详见 mosi-tts skill 的"环境准备"章节。

依赖:curlnode(均为基础环境自带)


常见问题

Q:能生成 3 个人的对话吗? 当前版本仅支持 2 人(S1 / S2),暂不支持 3 人及以上。 如需模拟多人对话,可分段合成后用 ffmpeg 拼接:

ffmpeg -i part1.wav -i part2.wav \
  -filter_complex "[0:a][1:a]concat=n=2:v=0:a=1" \
  ~/.openclaw/workspace/merged.wav

Q:支持日语/韩语吗? 当前版本仅支持中文和英文,其他语言无法保证正常合成。

Q:输出是什么格式? WAV(24kHz)。在飞书渠道必须转成语音气泡发送, 参考 mosi-tts skill 第 5 节(飞书语音气泡)的 mosi_feishu_voice.sh 脚本:

bash ~/.openclaw/skills/mosi-tts/scripts/mosi_feishu_voice.sh \
  --wav ~/.openclaw/workspace/dialogue.wav \
  --chat-id "oc_xxxxxxxxxxxxxxxx"

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Wechat Mp Writer

WeChat Official Account (公众号) content writer with article formatting, headline optimization, and engagement tips. Use when you need to write WeChat articles,...

Registry SourceRecently Updated
General

OpenClaw EverMemory Installer

Use this skill when installing, upgrading, verifying, or publishing the EverMemory OpenClaw plugin and its companion skill, including local path install, npm...

Registry SourceRecently Updated
General

Ip Advisor

知识产权顾问。专利、版权、商业秘密、注册流程、保护策略。IP advisor for patents, copyrights, trade secrets. 知识产权、专利、版权。

Registry SourceRecently Updated
1950ckchzh
General

炒股大师模拟器

炒股大师模拟器 | 股市模拟交易练习 | A股/港股/美股投资学习 | 化身文主任/股神老徐/炒股养家/孙宇晨等各位大师学习投资思路 | 多智能体股票讨论群

Registry SourceRecently Updated