tencentcloud-ocr-generalaccurate

腾讯云通用文字识别(高精度版)(GeneralAccurateOCR) 技能包。支持图像整体文字的检测和识别,支持中文、英文、中英文、数字和特殊字符号的识别,并返回文字框位置和文字内容。适用于文字较多、版式复杂、对识别准召率要求较高的场景,如网络图片、街景店招牌、法律卷宗、多语种简历等场景。支持图片Base64和URL两种输入方式,同时支持PDF文件识别和单字信息返回。对于简历识别场景,提供专门的结构化解析指引(详见 references/resume-parsing.md)。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "tencentcloud-ocr-generalaccurate" with this command: npx skills add zt1314p-design/tencentcloud-ocr-generalaccurate

腾讯云通用文字识别(高精度版)(GeneralAccurateOCR)

用途

调用腾讯云OCR通用文字识别(高精度版)接口,对图片中的文字进行精准提取。

核心能力:

  • 文字识别:高精度识别图片中的文字内容,返回完整识别文本
  • PDF支持:支持对PDF文件进行文字识别(单页)
  • 单字信息:可选返回每个单字的位置和置信度信息
  • 多语种简历结构化识别:基于 OCR 结果,对简历进行结构化提取与格式化输出(详见 references/resume-parsing.md

官方文档:https://cloud.tencent.com/document/api/866/37831

📚 可用资源

References(场景化指引)

  • references/resume-parsing.md - 多语种简历结构化识别指引(处理流程、Prompt模板、输出格式化模板、格式化规则)

使用时机

当用户提出以下需求时触发此技能:

  • 需要从图片或PDF中提取文字内容
  • 需要对各类文档、图片等进行文字识别
  • 涉及通用文字OCR识别的任何场景
  • 需要从简历图片/PDF中识别并结构化提取简历信息(请参考 references/resume-parsing.md 指引)
  • 需要对多语种简历进行识别和格式化输出(请参考 references/resume-parsing.md 指引)

环境要求

  • Python 3.6+
  • 依赖:tencentcloud-sdk-python(通过 pip install tencentcloud-sdk-python 安装)
  • 环境变量:
    • TENCENTCLOUD_SECRET_ID:腾讯云API密钥ID
    • TENCENTCLOUD_SECRET_KEY:腾讯云API密钥Key

使用方式

运行 scripts/main.py 脚本完成文字识别。

请求参数

参数类型必填说明
ImageBase64str否(二选一)图片Base64值,不超过10MB
ImageUrlstr否(二选一)图片URL地址,优先使用
IsPdfbool是否开启PDF识别,默认false
PdfPageNumberint需要识别的PDF页码,IsPdf为true时有效,默认1
IsWordsbool是否返回单字信息,默认false
UserAgentstr请求来源标识(可选),用于追踪调用来源,统一固定为Skills

⚠️ UserAgent参数使用指南

--user-agent参数是可选参数,统一固定为Skills,无需手动传递。用于标识API调用来源,便于追踪和统计:

调用框架--user-agent 参数值说明
所有框架Skills统一固定值,不传递时也默认为此值

实现说明

  • 通过--user-agent命令行参数传递,SDK 会将其拼接为 SDK_PYTHON_x.x.x; Skills 注入到请求中
  • 统一固定为Skills,未传递时也默认为此值
  • 该标识会记录在ES日志的 ReqBody.RequestClient 字段中,可用于追踪来源

输出格式

识别成功后返回 JSON 格式结果:

{
  "raw_text": "识别到的完整文字内容\n第二行文字\n第三行文字",
  "RequestId": "xxx"
}

无文字时返回:

{
  "raw_text": "",
  "message": "No text detected in the image.",
  "RequestId": "xxx"
}

调用示例

# 基础调用示例(--user-agent 默认为 Skills,可不传)
python scripts/main.py --image-url "https://example.com/document.jpg"

# 使用 Base64 文件调用
python scripts/main.py --image-base64 "/path/to/document.jpg"

# 识别 PDF 文件中的文字
python scripts/main.py --image-url "https://example.com/doc.pdf" \
  --is-pdf true --pdf-page-number 1

# 返回单字信息
python scripts/main.py --image-url "https://example.com/document.jpg" --is-words true

密钥配置

Step 1: 获取/购买 OCR 服务

🔗 腾讯云文字识别 OCR 购买页

在购买页面中选择 通用文字识别(高精度版) 完成购买。

Step 2: 获取 API 密钥

🔗 腾讯云 API 密钥管理

Step 3: 设置环境变量

Linux / macOS:

export TENCENTCLOUD_SECRET_ID="你的SecretId"
export TENCENTCLOUD_SECRET_KEY="你的SecretKey"

Windows (PowerShell):

$env:TENCENTCLOUD_SECRET_ID = "你的SecretId"
$env:TENCENTCLOUD_SECRET_KEY = "你的SecretKey"

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Workout Readiness Check In

Create a same-day workout readiness decision card for users who planned to exercise today but feel tired, sore, stressed, underslept, ill, or uncertain. Use...

Registry SourceRecently Updated
General

URL to Markdown

Convert HTML web pages from HTTP/HTTPS URLs to clean, readable Markdown files with optional batch processing and formatting features.

Registry SourceRecently Updated
General

Appliance Manual Command Card

Assist in creating a one-page appliance command card for tracking maintenance, troubleshooting, warranty info, and repair preparation.

Registry SourceRecently Updated
General

Fireseed Writing Expert

全能小说写作专家,支持从零创作、DNA提取与克隆、风格仿写、一键发布到 fireseed.online。用户可以用自然语言描述需求,系统自动调度子技能完成科学、闭环的写作与发布流程。

Registry SourceRecently Updated