speech2text

# STT - 语音识别 (Speech-to-Text)

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "speech2text" with this command: npx skills add lqwall26/speech2text

STT - 语音识别 (Speech-to-Text)

将语音消息识别为文字。支持 ogg/wav/mp3/m4a 格式。

触发方式

  • 用户发送语音消息时自动触发
  • 或者手动调用 skill

功能

  1. 自动识别语音 - 收到语音消息时自动转文字
  2. 离线识别 - 使用 Faster-Whisper,无需网络
  3. 格式转换 - 自动用 ffmpeg 转换音频格式

依赖

  • Python 包: faster-whisper, pydub
  • ffmpeg: C:\ffmpeg\bin (需要在系统 PATH 中)

安装

pip install faster-whisper pydub

使用示例

用户发送语音 → 自动识别为文字 → 根据文字内容回复

配置

  • 模型大小: tiny (可改为 base/small/medium/large,精度更高但更慢)
  • 默认语言: zh (中文)
  • ffmpeg 路径: C:\ffmpeg\bin

原理

  1. 接收语音文件 (ogg)
  2. 用 ffmpeg 转换为 wav (16000Hz, mono)
  3. 用 Faster-Whisper 识别为文字
  4. 返回识别结果并继续对话

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

GigaChat (Sber AI) Proxy

Integrate GigaChat (Sber AI) with OpenClaw via gpt2giga proxy

Registry SourceRecently Updated
3600smvlx
General

TencentCloud Video Face Fusion

通过提取两张人脸核心特征并实现自然融合,支持多种风格适配,提升创意互动性和内容传播力,广泛应用于创意营销、娱乐互动和社交分享场景。

Registry SourceRecently Updated
General

TencentCloud Image Face Fusion

图片人脸融合(专业版)为同步接口,支持自定义美颜、人脸增强、牙齿增强、拉脸等参数,最高支持8K分辨率,有多个模型类型供选择。

Registry SourceRecently Updated
General

YoudaoNote News

有道云笔记资讯推送:基于收藏笔记分析关注话题,推送最新相关资讯。支持对话触发与每日定时推送(如早上9点)。触发词:资讯推送、设置资讯推送、生成资讯推送。

Registry SourceRecently Updated
1.5K1lephix