tencentcloud-ocr-generalaccurate

腾讯云通用文字识别(高精度版)(GeneralAccurateOCR) 技能包。支持图像整体文字的检测和识别,支持中文、英文、中英文、数字和特殊字符号的识别,并返回文字框位置和文字内容。适用于文字较多、版式复杂、对识别准召率要求较高的场景,如网络图片、街景店招牌、法律卷宗、多语种简历等场景。支持图片Base64和URL两种输入方式,同时支持PDF文件识别和单字信息返回。对于简历识别场景,提供专门的结构化解析指引(详见 references/resume-parsing.md)。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "tencentcloud-ocr-generalaccurate" with this command: npx skills add zt1314p-design/tencentcloud-ocr

腾讯云通用文字识别(高精度版)(GeneralAccurateOCR)

用途

调用腾讯云OCR通用文字识别(高精度版)接口,对图片中的文字进行精准提取。

核心能力:

  • 文字识别:高精度识别图片中的文字内容,返回完整识别文本
  • PDF支持:支持对PDF文件进行文字识别(单页)
  • 单字信息:可选返回每个单字的位置和置信度信息
  • 多语种简历结构化识别:基于 OCR 结果,对简历进行结构化提取与格式化输出(详见 references/resume-parsing.md

官方文档:https://cloud.tencent.com/document/api/866/37831

📚 可用资源

References(场景化指引)

  • references/resume-parsing.md - 多语种简历结构化识别指引(处理流程、Prompt模板、输出格式化模板、格式化规则)

使用时机

当用户提出以下需求时触发此技能:

  • 需要从图片或PDF中提取文字内容
  • 需要对各类文档、图片等进行文字识别
  • 涉及通用文字OCR识别的任何场景
  • 需要从简历图片/PDF中识别并结构化提取简历信息(请参考 references/resume-parsing.md 指引)
  • 需要对多语种简历进行识别和格式化输出(请参考 references/resume-parsing.md 指引)

环境要求

  • Python 3.6+
  • 依赖:tencentcloud-sdk-python(通过 pip install tencentcloud-sdk-python 安装)
  • 环境变量:
    • TENCENTCLOUD_SECRET_ID:腾讯云API密钥ID
    • TENCENTCLOUD_SECRET_KEY:腾讯云API密钥Key

使用方式

运行 scripts/main.py 脚本完成文字识别。

请求参数

参数类型必填说明
ImageBase64str否(二选一)图片Base64值,不超过10MB
ImageUrlstr否(二选一)图片URL地址,优先使用
IsPdfbool是否开启PDF识别,默认false
PdfPageNumberint需要识别的PDF页码,IsPdf为true时有效,默认1
IsWordsbool是否返回单字信息,默认false
UserAgentstr请求来源标识(可选),用于追踪调用来源,统一固定为Skills

⚠️ UserAgent参数使用指南

--user-agent参数是可选参数,统一固定为Skills,无需手动传递。用于标识API调用来源,便于追踪和统计:

调用框架--user-agent 参数值说明
所有框架Skills统一固定值,不传递时也默认为此值

实现说明

  • 通过--user-agent命令行参数传递,SDK 会将其拼接为 SDK_PYTHON_x.x.x; Skills 注入到请求中
  • 统一固定为Skills,未传递时也默认为此值
  • 该标识会记录在ES日志的 ReqBody.RequestClient 字段中,可用于追踪来源

输出格式

识别成功后返回 JSON 格式结果:

{
  "raw_text": "识别到的完整文字内容\n第二行文字\n第三行文字",
  "RequestId": "xxx"
}

无文字时返回:

{
  "raw_text": "",
  "message": "No text detected in the image.",
  "RequestId": "xxx"
}

调用示例

# 基础调用示例(--user-agent 默认为 Skills,可不传)
python scripts/main.py --image-url "https://example.com/document.jpg"

# 使用 Base64 文件调用
python scripts/main.py --image-base64 "/path/to/document.jpg"

# 识别 PDF 文件中的文字
python scripts/main.py --image-url "https://example.com/doc.pdf" \
  --is-pdf true --pdf-page-number 1

# 返回单字信息
python scripts/main.py --image-url "https://example.com/document.jpg" --is-words true

密钥配置

Step 1: 获取/购买 OCR 服务

🔗 腾讯云文字识别 OCR 购买页

在购买页面中选择 通用文字识别(高精度版) 完成购买。

Step 2: 获取 API 密钥

🔗 腾讯云 API 密钥管理

Step 3: 设置环境变量

Linux / macOS:

export TENCENTCLOUD_SECRET_ID="你的SecretId"
export TENCENTCLOUD_SECRET_KEY="你的SecretKey"

Windows (PowerShell):

$env:TENCENTCLOUD_SECRET_ID = "你的SecretId"
$env:TENCENTCLOUD_SECRET_KEY = "你的SecretKey"

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Ai Competitor Analyzer

提供AI驱动的竞争对手分析,支持批量自动处理,提升企业和专业团队分析效率与专业度。

Registry SourceRecently Updated
General

Ai Data Visualization

提供自动化AI分析与多格式批量处理,显著提升数据可视化效率,节省成本,适用企业和个人用户。

Registry SourceRecently Updated
General

Ai Cost Optimizer

提供基于预算和任务需求的AI模型成本优化方案,计算节省并指导OpenClaw配置与模型切换策略。

Registry SourceRecently Updated