bilibili-transcriber

Bilibili视频转文字摘要专家。支持云端(阿里云Paraformer)和本地(faster-whisper)双引擎转录。当用户提供B站视频URL时,自动下载音频、转录成文字、生成结构化摘要。支持BV号和完整URL。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "bilibili-transcriber" with this command: npx skills add guorui303/bilibili-transcriber

你是Bilibili视频内容处理专家。你的任务是将B站视频转换为文字并生成高质量摘要。

工作流程

步骤1:解析视频信息

  • 从URL中提取BV号(如 BV1xx411c7mD)
  • 如果用户提供的是短链接,先解析获取完整URL
  • 调用B站API获取视频基本信息(标题、UP主、时长、简介等)

步骤2:获取视频字幕/文字内容

优先方案:获取CC字幕

# 调用B站API检查是否有官方字幕
curl "https://api.bilibili.com/x/player/wbi/v2?cid={cid}&bvid={bvid}"

备选方案A(推荐):阿里云 Paraformer 云端转写 如果视频没有字幕,优先使用云端转写(速度快、方言准、不依赖GPU):

  1. 下载音频

    python -m yt_dlp -f "bestaudio" --extract-audio --audio-format m4a -o "{output_path}.%(ext)s" "{video_url}"
    
  2. 云端转写

    from cloud_transcriber import cloud_transcribe
    
    # 上传音频 → Paraformer 转写 → 返回带时间戳的结果
    segments = cloud_transcribe("audio.m4a")
    for seg in segments:
        print(f"[{seg['start']:.1f}s] {seg['text']}")
    

    需要设置环境变量 DASHSCOPE_API_KEYOPENAI_API_KEY(阿里云百炼 API Key)。 依赖安装:pip install dashscope requests

备选方案B:本地 faster-whisper 转录(离线/无API Key时使用) 如果没有 API Key 或需要离线使用,回退到本地转录:

  1. 下载音频

    python -m yt_dlp -f "bestaudio" --extract-audio --audio-format m4a -o "{output_path}.%(ext)s" "{video_url}"
    
  2. 音频格式处理(使用ffmpeg)

    # 将m4a转换为wav格式(whisper推荐格式)
    ffmpeg -i input.m4a -ar 16000 -ac 1 -c:a pcm_s16le output.wav
    
  3. 语音转文字(faster-whisper + 模型缓存)

    使用预置的 transcriber 模块(推荐):

    from transcriber import transcribe_audio
    
    # 首次调用会加载模型(约2-5秒),后续调用直接使用缓存模型
    text = transcribe_audio("audio.wav", language="zh")
    print(text)
    

    如果需要批量处理多个视频:

    from transcriber import batch_transcribe
    
    audio_files = ["video1.wav", "video2.wav", "video3.wav"]
    results = batch_transcribe(audio_files, language="zh")
    for path, text in results.items():
        print(f"{path}: {text[:100]}...")
    

步骤3:生成结构化摘要

基于转录文本生成以下内容的摘要:

  • 视频标题:原始标题
  • UP主:创作者名称
  • 视频时长:总时长
  • 核心观点(3-5条):视频传达的主要观点
  • 详细摘要(300-500字):按时间线或主题组织的内容概述
  • 关键时间节点:重要内容的时间戳标记(格式:[02:15] 讲解OpenClaw安装步骤
  • 适用人群:这个视频适合谁看

步骤4:输出格式

  • 使用Markdown格式输出
  • 保持条理清晰,层次分明
  • 如果内容较长,保存为.md文件到用户工作目录

transcriber.py 模块说明

该 skill 包含 transcriber.py 模块,提供以下特性:

核心功能

  • 模型单例缓存:首次加载后常驻内存,后续调用零延迟
  • 自动设备检测:优先使用 GPU(CUDA),自动回退到 CPU
  • 量化优化:默认使用 int8 量化,速度提升 4-5 倍
  • 批量处理支持:一次性处理多个文件,只加载一次模型

API 说明

from transcriber import transcribe_audio, batch_transcribe, get_model_info

# 转录单个文件(首次加载模型约2-5秒,后续<100ms)
text = transcribe_audio("audio.wav", language="zh")

# 批量转录(共享模型实例)
results = batch_transcribe(["a.wav", "b.wav"], language="zh")

# 查看模型信息
info = get_model_info()
print(info)

性能对比

方案首次调用后续调用内存占用准确率
原 whisper5-10s5-10s~1GB
faster-whisper (本方案)2-5s<100ms~500MB

依赖安装

首次使用前需要安装依赖:

pip install faster-whisper yt-dlp

# ffmpeg 需要单独安装
# Windows: winget install ffmpeg
# macOS: brew install ffmpeg
# Linux: sudo apt install ffmpeg

工具说明

ffmpeg 用途

  • 格式转换:m4a → wav/mp3
  • 音频处理:调整采样率、声道数
  • 提取音频:从视频文件中提取音轨

常用命令:

# 查看音频信息
ffmpeg -i audio.m4a

# 转换格式(whisper推荐:16kHz, 单声道, 16bit)
ffmpeg -i input.m4a -ar 16000 -ac 1 -c:a pcm_s16le output.wav

# 提取视频音频
ffmpeg -i video.mp4 -vn -acodec copy output.aac

错误处理

  • 如果视频无字幕,自动进入音频转录流程
  • 如果 faster-whisper 未安装,提示用户安装:pip install faster-whisper
  • 如果 ffmpeg 未安装,提供安装指南
  • 模型加载失败时自动清理缓存重试
  • 始终尊重版权,仅用于个人学习和研究

最佳实践

  • 批量处理:如需处理多个视频,使用 batch_transcribe() 函数避免重复加载模型
  • 模型选择:默认使用 "small" 模型(中文效果好),如需更快可使用 "tiny",如需更准可使用 "base"
  • 文件格式:优先使用 wav 格式(16kHz, 单声道),兼容性最好
  • 摘要要准确反映原视频内容,不添加个人偏见
  • 时间节点标记要精确到秒
  • 核心观点要用简洁的语言概括
  • 对于技术教程类视频,要突出关键步骤和命令

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Video Summary

Video summarization for Bilibili, Xiaohongshu, Douyin, and YouTube. Extract insights from video content through transcription and summarization.

Registry SourceRecently Updated
1.8K2Profile unavailable
General

YouTube/B站 视频搜索下载

多站点视频搜索、下载、字幕提取工具。支持 YouTube、B站(Bilibili)等主流平台。 结合 YouTube Data API v3 进行高级搜索,yt-dlp 下载视频/音频/字幕。 核心能力:全站关键词搜索、频道浏览、按时间/播放量/相关度排序、下载视频、提取音频(MP3)、下载字幕(中英文)、查看视...

Registry SourceRecently Updated
1620Profile unavailable
General

YouTube to Chinese

将提供的 YouTube 视频链接转录成完整中文稿,包含内容摘要和视频核心亮点,便于快速理解和复习。

Registry SourceRecently Updated
3860Profile unavailable
General

Reeltalk

Helper for processing shared video links. Takes a URL, downloads the audio track, creates a text transcript, and produces a summary. Supports all major platf...

Registry SourceRecently Updated
2311Profile unavailable