Qwen 方言语音识别

基于Qwen3-ASR-0.6B的语音转文字Skill,支持22种中文方言和多语言识别,让你可以用方言和OpenClaw交流。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "Qwen 方言语音识别" with this command: npx skills add yszheda/asr-skill

Qwen 方言语音识别 Skill

基于通义千问Qwen3-ASR-0.6B模型的语音转文字服务,支持22种中文方言和30种语言识别,让用户可以用方言直接和OpenClaw交流。

✨ 功能特性

  • 🎤 多方言支持:支持22种中文方言识别
  • 🌐 多语言:支持30种国际语言
  • 💻 CPU友好:无需GPU,普通服务器即可运行
  • 🔍 自动检测:自动识别语言和方言类型
  • 低延迟:优化的CPU推理,接近实时响应
  • 🎯 高准确率:方言识别平均准确率超过90%
  • 🔌 即插即用:完美适配OpenClaw生态

🗣️ 支持的中文方言

安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语(香港口音)、粤语(广东口音)、吴语、闽南语。

🚀 快速开始

安装

在OpenClaw中搜索「Qwen方言语音识别」,点击一键安装即可。

手动安装

# 克隆项目
git clone <repository-url>
cd qwen-asr-skill

# 安装依赖
npm install
pip install -r requirements.txt

# 启动服务
npm start

环境变量配置

变量名默认值说明
PORT3000服务端口
HOST0.0.0.0监听地址
MODEL_NAMEQwen/Qwen3-ASR-0.6BASR模型名称
DEVICEcpu运行设备(cpu/cuda)
DTYPEfloat32数据类型
BATCH_SIZE4批量处理大小

🔧 使用方式

安装并启用后,直接在OpenClaw中发送语音消息即可,系统会自动:

  1. 接收语音输入
  2. 调用本Skill进行语音转文字
  3. 将识别后的文字传给大模型
  4. 返回语音回答给用户

你可以直接说方言,系统会自动识别,无需手动切换语言。

📡 API 接口

POST /transcribe

音频转文字接口

请求参数:

  • audio:音频文件或base64编码的音频数据(必需)
  • language:指定语言/方言(可选,如:"四川话"、"粤语"等)
  • timestamps:是否返回时间戳(可选,默认false)

响应示例:

{
  "success": true,
  "data": {
    "text": "你好,我是四川人,今天吃火锅。",
    "language": "Sichuan",
    "confidence": 0.98,
    "duration": 1.23
  }
}

📊 性能指标

  • 推理速度:实时音频的1.5-2倍速(8核CPU)
  • 内存占用:6-8GB运行时
  • 支持音频时长:最长5分钟
  • 方言识别WER:<16%(平均)

🔒 隐私保护

  • 所有语音处理在本地完成,不会上传到第三方服务器
  • 处理完的音频文件会自动删除,不会存储
  • 不收集任何用户语音数据和识别内容

🤝 贡献

欢迎提交Issue和Pull Request来改进这个Skill!

📄 许可证

Apache-2.0 License

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Qwen Asr Skill

Provides high-accuracy speech-to-text conversion supporting 22 Chinese dialects and 30 languages with automatic language detection, running on CPU.

Registry SourceRecently Updated
3600Profile unavailable
General

Chinese Voice Detective Mystery Game

中文语音侦探推理游戏。适用于用户想玩一场沉浸式推理探案的场景:由 LLM 生成包含嫌疑人、线索和真凶的完整案件,玩家通过审讯嫌疑人(支持 ASR 语音或文本输入)、勘察现场、收集证据,最终提出指控并获得评分。支持多音色 TTS 为不同嫌疑人配音,审讯历史自动压缩防止上下文溢出,案件生成后自动验证逻辑自洽性。支持存...

Registry SourceRecently Updated
2701Profile unavailable
General

iFlytek ASR - 讯飞语音转文字

使用科大讯飞 API 将音频/视频转换为文字。支持本地音频文件转录、YouTube 视频下载并转文字。适用于会议记录、视频字幕、语音笔记等场景。当用户需要语音转文字、音频转录、YouTube 视频转文字时触发。

Registry SourceRecently Updated
4410Profile unavailable
General

会议纪要助手

会议纪要与会议播报生成技能。用于处理会议录音或转写文本,执行发言人区分、口语降噪、议题重构、双钻结构整理,并输出执行摘要、核心决议、Markdown待办表格、TTS播报稿和会议思维导图(HTML/SVG/XMind)。支持双向语音能力:录音转文本(ASR)与文本转录音(TTS)。用户提到“会议纪要”“录音转文字”...

Registry SourceRecently Updated
2380Profile unavailable