tencentcloud-ocr-recognizetableaccurate

腾讯云表格识别v3(RecognizeTableAccurateOCR)接口调用技能。当用户需要从表格图片或PDF中识别常规表格、无线表格、多表格的内容,提取每个单元格的文字信息,或将表格图片识别结果导出为Excel文件时,应使用此技能。支持中英文表格图片、旋转表格图片、嵌套表格图片等复杂场景,识别效果优于表格识别V2。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "tencentcloud-ocr-recognizetableaccurate" with this command: npx skills add zt1314p-design/tencentcloud-ocr-recognizetableaccurate

腾讯云表格识别v3 (RecognizeTableAccurateOCR)

用途

调用腾讯云OCR表格识别v3接口,支持中英文图片/PDF内常规表格、无线表格、多表格的检测和识别,返回每个单元格的文字内容,支持旋转的表格图片识别,且支持将识别结果保存为Excel格式。

核心能力:

  • 常规表格识别:支持有线表格的精准识别
  • 无线表格识别:支持无边框表格的检测与识别
  • 多表格识别:单张图片/PDF中包含多个表格时均可检测
  • 嵌套表格识别:有线表格中包含无线表格的复杂场景
  • 旋转表格识别:支持旋转角度的表格图片
  • Excel导出:识别结果可直接导出为Excel文件(Base64编码)
  • PDF支持:支持PDF文件的单页表格识别

官方文档:https://cloud.tencent.com/document/api/866/86721

使用时机

当用户提出以下需求时触发此技能:

  • 需要从图片中提取表格内容
  • 需要从PDF中识别表格数据
  • 需要将图片/PDF中的表格转换为Excel文件
  • 涉及表格OCR识别的任何场景
  • 需要识别无线表格、嵌套表格等复杂表格

环境要求

  • Python 3.6+
  • 依赖:tencentcloud-sdk-python(通过 pip install tencentcloud-sdk-python 安装)
  • 环境变量:
    • TENCENTCLOUD_SECRET_ID:腾讯云API密钥ID
    • TENCENTCLOUD_SECRET_KEY:腾讯云API密钥Key

使用方式

运行 scripts/main.py 脚本完成表格识别。

请求参数

参数类型必填说明
ImageBase64str否(二选一)图片/PDF的Base64值,编码后不超过10M,分辨率建议600*800以上且长宽比小于3,支持PNG/JPG/JPEG/BMP/PDF
ImageUrlstr否(二选一)图片/PDF的URL地址,都提供时只使用ImageUrl
PdfPageNumberintPDF页码,仅支持单页识别,默认1,必须>=1
UserAgentstr请求来源标识(可选),用于追踪调用来源,统一固定为Skills

输出格式

识别成功后返回 JSON 格式结果:

格式化输出模式(默认)

{
  "表格数量": 1,
  "表格详情": [
    {
      "表格序号": 1,
      "表格类型": "有线表格",
      "单元格数量": 12,
      "单元格详情": [
        {
          "行范围": "0 - 1",
          "列范围": "0 - 1",
          "文本": "本报告期末",
          "置信度": 99.0,
          "单元格类型": "body"
        }
      ],
      "表格坐标": [
        {"X": 50, "Y": 100},
        {"X": 800, "Y": 100},
        {"X": 800, "Y": 600},
        {"X": 50, "Y": 600}
      ]
    }
  ],
  "Excel数据": "已返回(Base64编码)",
  "旋转角度": 0.0,
  "RequestId": "xxx"
}

原始输出模式(--raw)

{
  "TableDetections": [
    {
      "Cells": [
        {
          "ColTl": 0,
          "RowTl": 0,
          "ColBr": 1,
          "RowBr": 1,
          "Text": "本报告期末",
          "Type": "body",
          "Confidence": 99.0,
          "Polygon": [{"X": 50, "Y": 100}, {"X": 200, "Y": 100}, {"X": 200, "Y": 150}, {"X": 50, "Y": 150}]
        }
      ],
      "Type": 1,
      "TableCoordPoint": [{"X": 50, "Y": 100}, {"X": 800, "Y": 100}, {"X": 800, "Y": 600}, {"X": 50, "Y": 600}]
    }
  ],
  "Data": "UEsDBBQACAgIAIFzWFY...",
  "PdfPageSize": 0,
  "Angle": 0.0,
  "RequestId": "xxx"
}

响应数据结构说明

TableInfo 结构:

字段类型说明
Cellslist of TableCellInfo单元格内容(可能返回null)
Typeint文本块类型:0非表格文本、1有线表格、2无线表格(可能返回null)
TableCoordPointlist of Coord表格主体四个顶点坐标,左上→右上→右下→左下(可能返回null)

TableCellInfo 结构:

字段类型说明
ColTlint单元格左上角的列索引
RowTlint单元格左上角的行索引
ColBrint单元格右下角的列索引
RowBrint单元格右下角的行索引
Textstr单元格内识别出的字符串文本,多行以换行符\n隔开
Typestr单元格类型
Confidencefloat单元格置信度
Polygonlist of Coord单元格在图像中的四点坐标

错误码说明

错误码含义
FailedOperation.DownLoadError文件下载失败
FailedOperation.EmptyImageError图片内容为空
FailedOperation.ImageDecodeFailed图片解码失败
FailedOperation.ImageSizeTooLarge图片尺寸过大
FailedOperation.OcrFailedOCR识别失败
FailedOperation.PDFParseFailedPDF解析失败
FailedOperation.UnKnowError未知错误
FailedOperation.UnKnowFileTypeError未知的文件类型
FailedOperation.UnOpenError服务未开通
InvalidParameterValue.InvalidParameterValueLimit参数值错误
LimitExceeded.TooLargeFileError文件内容太大
ResourceUnavailable.InArrears账号已欠费
ResourceUnavailable.ResourcePackageRunOut账号资源包耗尽
ResourcesSoldOut.ChargeStatusException计费状态异常

重要业务逻辑

  1. ImageBase64和ImageUrl必须提供其一,都提供时只使用ImageUrl
  2. 图片/PDF编码后不超过10M,分辨率建议600800以上且长宽比小于3(短边分辨率>600,长边<=短边3)
  3. 支持格式:PNG、JPG、JPEG、BMP、PDF
  4. PdfPageNumber必须>=1,仅支持PDF单页识别,默认值为1
  5. PDF转图有白名单机制,需白名单用户才支持
  6. 若引擎返回ImageSizeTooLargeError,会映射为ImageSizeInvalidError
  7. 支持将识别结果导出为Excel(Data字段为Base64编码的Excel数据)
  8. 默认接口请求频率限制:2次/秒
  9. 建议图片存储于腾讯云COS以获得更高的下载速度和稳定性

调用示例

# 通过URL识别表格
python scripts/main.py --image-url "https://example.com/table.jpg"

# 通过文件路径(自动Base64编码)识别
python scripts/main.py --image-base64 ./table.png

# 识别PDF中的表格(指定页码)
python scripts/main.py --image-base64 ./document.pdf --pdf-page-number 2

# 识别并保存Excel文件
python scripts/main.py --image-url "https://example.com/table.jpg" --save-excel ./result.xlsx

# 输出原始JSON响应
python scripts/main.py --image-url "https://example.com/table.jpg" --raw

# 指定地域
python scripts/main.py --image-url "https://example.com/table.jpg" --region ap-beijing```

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Hippo Video

Hippo Video integration. Manage Persons, Organizations, Deals, Leads, Activities, Notes and more. Use when the user wants to interact with Hippo Video data.

Registry SourceRecently Updated
General

币安资金费率监控

币安资金费率套利监控工具 - 查看账户、持仓、盈亏统计,SkillPay收费版

Registry SourceRecently Updated
General

apix

Use `apix` to search, browse, and execute API endpoints from local markdown vaults. Use this skill to discover REST API endpoints, inspect request/response s...

Registry SourceRecently Updated
0160
dngpng