iflytek-asr

使用科大讯飞 API 将音频/视频转换为文字。支持本地音频文件转录、YouTube 视频下载并转文字。适用于会议记录、视频字幕、语音笔记等场景。当用户需要语音转文字、音频转录、YouTube 视频转文字时触发。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "iflytek-asr" with this command: npx skills add harven-droid/iflytek-asr

讯飞语音转文字 (iFlytek ASR)

使用科大讯飞语音识别 API 将音频文件转换为文本,支持中文方言识别。

功能特性

  • ✅ 支持多种音频格式:mp3, wav, pcm, mp4, m4a, aac, ogg, flac, speex, opus, wma
  • ✅ 支持 YouTube 视频下载并转文本
  • ✅ 文件大小限制:≤500MB
  • ✅ 时长限制:≤5小时
  • ✅ 自动识别中文方言
  • ✅ 自动添加标点符号

前置要求

1. 获取讯飞 API 凭证

  1. 访问 科大讯飞开放平台
  2. 注册/登录账号
  3. 创建应用,选择「语音转写」服务
  4. 获取凭证:
    • XFYUN_APP_ID
    • XFYUN_ACCESS_KEY_ID
    • XFYUN_ACCESS_KEY_SECRET

2. 配置环境变量

在 skill 目录下创建 .env 文件:

XFYUN_APP_ID=your_app_id
XFYUN_ACCESS_KEY_ID=your_access_key_id
XFYUN_ACCESS_KEY_SECRET=your_access_key_secret

3. 安装依赖

pip3 install yt-dlp requests python-dotenv

使用方法

转录本地音频

python3 scripts/speech_to_text.py <音频文件路径> [输出文本路径]

示例:

python3 scripts/speech_to_text.py meeting.mp3
python3 scripts/speech_to_text.py recording.wav output.txt

YouTube 视频转文字

python3 scripts/download_and_transcribe.py "YOUTUBE_URL" [保存目录]

示例:

python3 scripts/download_and_transcribe.py "https://www.youtube.com/watch?v=VIDEO_ID" ~/Downloads

仅下载 YouTube 音频

python3 scripts/download_audio.py "YOUTUBE_URL" [保存目录]

对比:讯飞 vs Whisper

特性讯飞 ASRWhisper
成本API 配额(有免费额度)免费
离线❌ 需要网络✅ 本地运行
速度⭐⭐⭐⭐⭐ 快⭐⭐⭐ 较慢
中文准确率⭐⭐⭐⭐⭐⭐⭐⭐⭐
标点符号✅ 自动添加❌ 无
方言支持✅ 支持⭐⭐ 一般

建议:

  • 重要会议/采访 → 讯飞(准确率高、有标点)
  • 日常语音消息 → Whisper(免费、无限制)

API 限制

讯飞免费版:

  • 每日调用次数:500 次
  • 单次文件大小:≤500MB
  • 单次时长:≤5小时

文件结构

iflytek-asr/
├── SKILL.md           # 本文档
├── README.md          # 详细说明
├── QUICKSTART.md      # 快速开始
├── .env.example       # 配置模板
├── requirements.txt   # Python 依赖
└── scripts/
    ├── speech_to_text.py           # 音频转文字
    ├── download_audio.py           # YouTube 下载
    └── download_and_transcribe.py  # 下载+转文字

常见问题

Q: 转录失败怎么办?

  • 检查 API 凭证是否正确
  • 确认文件格式支持
  • 检查网络连接

Q: 如何提高准确率?

  • 确保音频清晰
  • 选择正确的语言/方言
  • 避免背景噪音

许可证

MIT License

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

TencentCloud ASR

腾讯云语音识别 ASR Skill,适用于语音转文字、音频转写、字幕生成、会议转录、语音消息识别、 本地文件或 URL 音频识别。包含三种模式:一句话识别(<=60s 短音频)、录音识别极速版 (<=2h/100MB 中长音频快速同步返回)、录音识别(<=5h 长音频异步识别)。支持普通话、 英语、粤语、日语、韩...

Registry SourceRecently Updated
1.5K5Profile unavailable
General

Aliyun Asr

Pure Aliyun ASR skill for voice message transcription, supports multiple channels including Feishu

Registry SourceRecently Updated
2.3K2Profile unavailable
General

Chinese Voice Detective Mystery Game

中文语音侦探推理游戏。适用于用户想玩一场沉浸式推理探案的场景:由 LLM 生成包含嫌疑人、线索和真凶的完整案件,玩家通过审讯嫌疑人(支持 ASR 语音或文本输入)、勘察现场、收集证据,最终提出指控并获得评分。支持多音色 TTS 为不同嫌疑人配音,审讯历史自动压缩防止上下文溢出,案件生成后自动验证逻辑自洽性。支持存...

Registry SourceRecently Updated
2711Profile unavailable
General

会议纪要助手

会议纪要与会议播报生成技能。用于处理会议录音或转写文本,执行发言人区分、口语降噪、议题重构、双钻结构整理,并输出执行摘要、核心决议、Markdown待办表格、TTS播报稿和会议思维导图(HTML/SVG/XMind)。支持双向语音能力:录音转文本(ASR)与文本转录音(TTS)。用户提到“会议纪要”“录音转文字”...

Registry SourceRecently Updated
2390Profile unavailable