moss-voice-generator

MOSI Studio 指令式音色生成(moss-voice-generator): 用自然语言描述想要的音色风格,无需指定预设 voice_id, 模型根据描述实时生成对应的声音。 触发词:指令式语音、按描述生成声音、自定义音色、描述一个声音、 "voice generator"、"generate voice"、"按风格生成"、 "播音腔"、"用xxx风格的声音说"、"生成一个xx风格的语音"。 与普通 TTS 的区别:不需要挑选 voice_id,用文字描述就能生成想要的音色。 在飞书渠道:生成完成后优先发送语音气泡,不要发文件附件, 不要只回文字说"已生成"。具体发送方法参见 mosi-tts skill 第 5 节。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "moss-voice-generator" with this command: npx skills add mkkb473/moss-voice-generator

MOSS Voice Generator 指令式音色生成

不需要挑选预设音色,直接用文字描述想要的声音风格,模型会按描述实时合成。


快速开始

脚本路径:~/.openclaw/skills/moss-voice-generator/scripts/mosi_voice_generator.sh

bash ~/.openclaw/skills/moss-voice-generator/scripts/mosi_voice_generator.sh \
  --text "各位观众朋友们大家好,欢迎收看今天的节目。" \
  --instruction "播音腔女声,专业、清晰、有亲和力" \
  --output ~/.openclaw/workspace/output.wav

instruction 风格描述示例

--instruction 是核心参数,用中文或英文自由描述:

效果instruction 示例
专业播音播音腔女声,专业、清晰、有亲和力
温柔知性温柔知性的女声,语速缓慢,像在讲故事
活力男声年轻有活力的男声,热情开朗,像综艺主持人
低沉磁性沉稳有力的男声,低沉磁性,像纪录片旁白
甜美可爱甜美可爱的女声,活泼轻快,像动漫配音
老人声音年迈的老爷爷声音,略带沙哑,语速较慢
英文主持professional female news anchor voice, clear and authoritative

描述越具体,效果越接近预期;可以包含性别、年龄、情绪、场景等维度。


与普通 TTS 的区别

moss-tts(普通 TTS)moss-voice-generator
音色来源从预设列表挑 voice_id用文字描述即时生成
稳定性高(同一 voice_id 结果一致)中(每次略有差异)
灵活性受限于预设音色几乎无限制
适合场景需要稳定一致的品牌声音一次性生成、探索新音色

完整参数说明

--text, -t          要合成的文字(必填)
--instruction, -i   音色风格描述(必填)
--output, -o        输出 WAV 路径
                    (默认: ~/.openclaw/workspace/voice_gen_output.wav)
--temperature       采样温度,控制随机性(默认: 1.5)
--top-p             核采样阈值(默认: 0.6)
--top-k             Top-K 采样(默认: 50)
--api-key, -k       覆盖 MOSI_TTS_API_KEY 环境变量

调节 --temperature:值越高越随机,值越低越保守稳定。 一般保持默认即可,如果觉得音色太随意可以调低至 1.0。


环境准备

API Key 配置同 mosi-tts skill,读取 MOSI_TTS_API_KEY 环境变量。 详见 mosi-tts skill 的"环境准备"章节。

依赖:curljqbase64(均为标准 Unix 工具,通常已预装)


常见问题

Q:生成的音色每次都一样吗? 不一定。同样的 instruction 每次生成会有轻微差异(由 temperature 控制)。 如果需要完全稳定的音色,建议先用此工具探索满意的风格, 再通过声音克隆(mosi-tts skill 的 Voice Clone 功能)固化为 voice_id。

Q:可以克隆某人的声音吗? 本工具是根据文字描述生成全新音色,不是克隆真实人声。 克隆真实人声请使用 mosi-tts skill 的 Voice Clone 功能。

Q:输出是什么格式? WAV(24kHz)。在飞书渠道必须转成语音气泡发送, 参考 mosi-tts skill 第 5 节(飞书语音气泡)的 mosi_feishu_voice.sh 脚本:

bash ~/.openclaw/skills/mosi-tts/scripts/mosi_feishu_voice.sh \
  --wav ~/.openclaw/workspace/voice_gen_output.wav \
  --chat-id "oc_xxxxxxxxxxxxxxxx"

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

说人话

去AI味写作技能:将AI生成的文案改写成真人风格,适用于小红书、抖音、微信公众号、微博。 触发词:去AI味、润色文案、生成正文、human写作。 适用场景:AI生成初稿后,执行去AI味处理,使文案读起来自然、有人味、不像机器写的。

Registry SourceRecently Updated
General

Interview Prep Coach

Prepare candidates for technical, system-design, behavioral, case-study, and leadership interviews through diagnostic intake, timeline-based prep plans, mock...

Registry SourceRecently Updated
General

Cold Call Script Generator

Generate personalized cold call openers, voicemail scripts, cold email opening lines, and full multi-touch outbound sequences for B2B sales reps, SDRs, and f...

Registry SourceRecently Updated
General

Postzee Skill

Generate AI images/videos and post to 30+ social media platforms with Postzee. Use when the user wants to create AI media, generate images or videos, optimiz...

Registry SourceRecently Updated