Audio Enhancement Skill
功能:本地音频增强与修复统一工具,集成 VoiceFixer(语音降噪/修复)和 AudioSR(高保真超级分辨率)。支持单文件与目录批量处理,自动适配最合适的增强模式,输出清晰、高质量的 48kHz WAV 文件。
触发时机(Triggers)
- 用户提供音频文件(.wav、.mp3、.flac、.m4a、.ogg 等)或音频文件夹路径,并表达增强音质、修复、降噪、高保真等意图。
- 用户说“音频增强”“修复录音”“降噪”“提升音质”“高保真”“48kHz”等关键词。
- 支持单个文件处理或整个文件夹批量处理(支持递归子目录)。
支持的两种增强模式
-
VoiceFixer 通用语音修复(默认模式)
- 擅长语音降噪、提升清晰度、修复轻微失真。
- 推荐用于:会议录音、访谈、播客、语音笔记、老旧录音。
-
AudioSR 高保真音频超级分辨率(启用
--hifi时)- 将音频提升至 48kHz,显著增加高频细节和整体保真度。
- 推荐用于:音乐、演唱、人声、需要高音质的场景。
参数提取指南
当决定调用此技能时,请从用户消息中准确提取以下参数:
<输入路径>(必填): 用户提供的音频文件路径或文件夹路径(支持相对/绝对路径)。<输出路径>(选填): 用户指定的输出文件或目录路径。若未指定,默认在输入同级目录自动添加_enhanced后缀。<模式选择>(选填):- 默认使用 VoiceFixer。
- 若用户提到“高保真”“音乐”“48kHz”“超分辨率”等,自动添加
--hifi并使用 AudioSR。
- VoiceFixer 专用参数(默认模式):
--mode:0/1/2(推荐 1,默认 1)--cuda:是否使用 GPU-r, --recursive:是否递归子目录
- AudioSR 专用参数(
--hifi模式):--model_name:basic或speech(人声推荐 speech)--ddim_steps:扩散步数(默认 50,建议 50-100)--guidance_scale:引导尺度(默认 3.5)--seed:随机种子(默认 42)--device:cuda或cpu
执行步骤
-
解析路径:识别用户提供的音频文件或文件夹路径。
-
模式判断:根据用户意图判断使用 VoiceFixer(默认)还是 AudioSR(含
--hifi)。 -
默认目标:若未指定输出路径,默认在输入目录生成带
_enhanced_48k(AudioSR)或_enhanced(VoiceFixer)后缀的文件。 -
调用命令:使用以下兼容性命令启动脚本(优先
python3,失败则python)。脚本会自动检查环境、初始化模型并处理。(python3 scripts/enhancer.py -i "<输入路径>" [-o "<输出目录>"] [-m <0|1|2>] [--cuda] [-r] [--hifi] [--model_name <basic|speech>] [--ddim_steps <数值>] [--guidance_scale <数值>] [--seed <数值>] [--device <cuda|cpu>]) || (python scripts/enhancer.py -i "<输入路径>" [-o "<输出目录>"] [-m <0|1|2>] [--cuda] [-r] [--hifi] [--model_name <basic|speech>] [--ddim_steps <数值>] [--guidance_scale <数值>] [--seed <数值>] [--device <cuda|cpu>])