baidu-doc-pipeline-parser 百度文档解析

调用百度文档解析API解析文档。支持PDF、Word、Excel、PPT、图片等18+格式。提取文本、表格、版面分析、OCR识别及RAG文档分块。当用户需要解析文档、提取文本/表格、分析文档结构、处理扫描件时使用。触发词:文档解析、PDF解析、Word解析、表格提取、OCR、文档分析、提取文本、文档结构、扫描识别。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "baidu-doc-pipeline-parser 百度文档解析" with this command: npx skills add maglanyulan/baidu-doc-pipeline-parser

百度文档解析 Skill

基于百度智能文档分析平台 API,提供文档解析能力。

功能概述

  • 支持对 doc、pdf、图片、xlsx 等 18 种格式文档进行解析
  • 输出文档的版面、表格、阅读顺序、标题层级、旋转角度等信息
  • 支持中、英、日、韩、法等 20 余种语言类型
  • 可返回 Markdown 格式内容,将非结构化数据转化为易于处理的结构化数据
  • 识别准确率可达 90% 以上
  • 文档分块(适用于 RAG 场景)

适用场景

当用户需要:

  • 解析 PDF、Word、Excel 等格式文档
  • 从文档中提取文本内容
  • 识别并提取表格数据
  • 分析文档结构(标题层级、章节、版面布局)
  • 对扫描件进行 OCR 文字识别
  • 将文档分块用于 RAG 应用

API 配置

环境变量(必须)

百度智能文档分析平台 领取免费测试资源

使用前请设置以下环境变量:

export BAIDU_DOC_AI_API_KEY="your_api_key"
export BAIDU_DOC_AI_SECRET_KEY="your_secret_key"

认证方式

通过 API Key 和 Secret Key 获取 access_token,有效期 30 天。

支持格式

版式文档:pdf, jpg, jpeg, png, bmp, tif, tiff, ofd, ppt, pptx

流式文档:doc, docx, txt, xls, xlsx, wps, html, mhtml

支持语言

CHN_ENG(中英文)、JAP(日语)、KOR(韩语)、FRE(法语)、SPA(西班牙语)、POR(葡萄牙语)、GER(德语)、ITA(意大利语)、RUS(俄语)、DAN(丹麦语)、DUT(荷兰语)、MAL(马来语)、SWE(瑞典语)、IND(印尼语)、POL(波兰语)、ROM(罗马尼亚语)、TUR(土耳其语)、GRE(希腊语)、HUN(匈牙利语)、THA(泰语)、VIE(越南语)、ARA(阿拉伯语)、HIN(印地语)

使用方式

python3 scripts/baidu_doc_parser.py --file_data <文件的base64编码>
python3 scripts/baidu_doc_parser.py --file_url <文件公网URL>

API 接口

文档解析 API 服务为异步接口,需要先调用提交请求接口获取 task_id,然后调用获取结果接口进行结果轮询。

提交请求接口

  • HTTP 方法:POST
  • 请求 URLhttps://aip.baidubce.com/rest/2.0/brain/online/v2/parser/task?access_token={token}
  • Content-Typeapplication/x-www-form-urlencoded

获取结果接口

  • HTTP 方法:POST
  • 请求 URLhttps://aip.baidubce.com/rest/2.0/brain/online/v2/parser/task/query?access_token={token}
  • Content-Typeapplication/x-www-form-urlencoded
  • 请求参数task_id(必填,提交请求时返回的 task_id)

请求参数

文件参数(必选,二选一)

参数必选类型说明
file_data和 file_url 二选一string文件 Base64 编码数据。版式文档:pdf, jpg, jpeg, png, bmp, tif, tiff, ofd, ppt, pptx;流式文档:doc, docx, txt, xls, xlsx, wps, html, mhtml。文档大小不超过 50M,PDF 最大支持 2000 页。若文档大小超过 50M,须从 file_url 方式上传。优先级:file_data > file_url
file_url和 file_data 二选一string文件数据 URL,长度不超过 1024 字节,支持单个 URL 传入。PDF 文档大小不超过 300MB,非 PDF 不超过 50M,PDF 最大支持 2000 页。请注意关闭 URL 防盗链
file_namestring文件名,请保证文件名后缀正确,例如 "1.pdf"

核心功能参数

参数必选类型可选值范围说明
recognize_formulaboolTrue/False是否对版式类型文档进行公式识别
analysis_chartboolTrue/False是否对统计图表进行解析
angle_adjustboolTrue/False是否对图片进行角度矫正
parse_image_layoutboolTrue/False是否返回文档中的图片位置信息

语言与格式参数

参数必选类型说明
language_typestring识别语种类型,默认为 CHN_ENG(中英文)
switch_digital_widthstring是否对数字进行全半角转换,默认为 auto。可选:auto(不转换)、half(半角输出)、full(全角输出)
html_table_formatbool是否将识别出的表格转换为 HTML 格式返回,default=True

文档分块参数

return_doc_chunks 为字典类型,用于返回文档切分后的片段数据(按语义、字数、标点):

参数必选类型默认值说明
switchboolFalse是否进行文档内容切分
split_typestrchunk切分方式:chunk(按 chunk_size 来切)/ mark(按 separators 来切)
separatorslist['。',';','!','?',';','!','?']切分标点
chunk_sizeint-1切分块的大小,-1 表示按照语义自动切分,不限定块的大小

返回结构

提交请求返回

字段类型说明
log_iduint64唯一的 log id,用于问题定位
error_codeint错误码
error_msgstring错误描述信息
result.task_idstring该请求生成的 task_id,后续使用该 task_id 获取审查结果

获取结果返回

字段类型说明
log_iduint64唯一的 log id
error_codeint错误码
error_msgstring错误描述信息
result.task_idstring任务 ID
result.statusstring任务状态:pending(排队中)、processing(运行中)、success(成功)、failed(失败)
result.task_errorstring解析报错信息,包含任务失败、额度不够
result.markdown_urlstring文档解析结果的 Markdown 格式链接,链接有效期 30 天
result.parse_result_urlstring文档解析结果的 BOS 链接(JSON),链接有效期 30 天

解析结果 JSON 结构(parse_result_url)

顶层结构

字段类型说明
file_namestring文档名称
file_idstring文档 ID
pageslist文件单页解析内容
chunkslist文件内容切分结果(return_doc_chunks.switch=True 时有值)

页面对象(pages[])

字段类型说明
page_idstring页码 ID
page_numint页码数
textstring当前页的所有纯文字内容
layoutslist页面内容版式分析的结果
tableslist页面表格解析结果
imageslist页面中图片解析结果
metadict页元信息

页面元信息(meta)

字段类型说明
page_widthint页面宽度
page_heightint页面高度
is_scanbool是否扫描件
page_angleint页面倾斜角度
page_typestring页面属性:text(正文)、contents(目录)、appendix(附录)、others(其他)
sheet_namestringExcel 的 sheet 名

版面元素(layouts[])

字段类型说明
layout_idstringlayout 元素唯一标志,格式 "xxxxx-layout-{global_layout_index}"
textstringlayout 对应的文本内容。注:当 type 为 table/image 时该字段为空,需根据 type 和 layout_id 分别到 tables/images 字段里找到对应内容
positionlist元素在页面中的位置 [x, y, w, h],左上角和宽高
typestring版面元素类型(见下表)
sub_typestring版面元素子类型(见下表)
parentstring标题层级树中父节点的 layout_id,若为一级标题则 parent 为 "root"
childrenlist标题层级树中子节点的 layout_id 列表

版面类型(type)

类型说明
para段落
table表格
image文档中的插图
head_tail页面顶部(页眉/页脚)
contents目录
seal印章
title标题
formula公式

子类型(sub_type)

  • title 类title_{n}(n 级标题,如 title_2 代表二级标题)、image_title(图标题)、table_title(表标题)
  • image 类chart(统计图表)、figure(普通插图)、QR_code(二维码)、Bar_code(条形码)

表格对象(tables[])

字段类型说明
layout_idstring与 layouts 中 type 为 table 的元素的 layout ID 对应
markdownstring表格内容的 Markdown 形式
table_title_idlist表格标题对应的 layout_id,默认为 null
positionlist边框数据 [x, y, w, h](以页面坐标为原点),版式格式时有效
cellslist单元格的内版面信息,layout 类型为表格时有值
matrixlist二位数组,表示表格内布局位置信息,每个元素对应 cells 列表中元素的索引
merge_tablestring跨页表格标记:begin(开始)、inner(中间,超过两页)、end(结束);非跨页表格该字段为空

图片对象(images[])

字段类型说明
layout_idstring与 layouts 中 type 为 image 的元素的 layout ID 对应
image_title_idlist图片标题对应的 layout_id,默认为 null
positionlist边框数据 [x, y, w, h]
content_layoutslist图片的内版面信息
data_urlstring图片存储链接
image_descriptionstring对统计图表进行内容解析和描述,输出结果为 JSON 字符串

分块对象(chunks[])

字段类型说明
chunk_idstring切片的 ID
contentstring切片的内容
typestring切片类型:text 或 table
meta.titlelistchunk 所属的多级标题内容
meta.positionlistchunk 的位置,根据分块算法有可能 chunk 跨多个页
meta.boxlistchunk 的位置坐标
meta.page_numintchunk 内容所在页数

API 特性

异步处理流程

  1. 调用提交请求接口 → 获取 task_id
  2. 通过 task_id 调用获取结果接口轮询

轮询建议

  • 提交请求后 5~10 秒开始轮询
  • 轮询间隔:5 秒
  • 最大轮询时间:300 秒

QPS 限制

  • 提交请求接口:2 QPS
  • 获取结果接口:10 QPS

文件限制

限制项说明
文件大小(file_data)≤ 50MB,超过 50M 须使用 file_url
文件大小(file_url)PDF ≤ 300MB,非 PDF ≤ 50MB
URL 长度≤ 1024 字节
页数限制PDF ≤ 2000 页
优先级file_data > file_url(同时存在时 file_url 字段失效)

错误处理

常见错误码:

错误码说明解决方案
110/111access_token 无效或过期重新获取 access_token
216200文件或 URL 为空提供 file_data 或 file_url
216201文件格式错误检查文件格式是否支持
216202文件大小超限缩减文件大小
282000内部错误重试或联系技术支持
282003缺少必要参数检查必填参数
282007任务不存在检查 task_id 是否正确
282018服务繁忙降低请求频率

完整错误码参见 references/error_codes.md

在线调试

可在 示例代码中心 申请试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

脚本

  • scripts/baidu_doc_parser.py:文档解析主程序,支持命令行快速调用

参考文档

  • references/parameters.md:完整 API 参数与返回结构详解
  • references/error_codes.md:完整错误码参考
  • references/apikey-fetch.md:API Key 配置指南

相关链接

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Plasmic

Plasmic integration. Manage Projects. Use when the user wants to interact with Plasmic data.

Registry SourceRecently Updated
General

Idx Broker

IDX Broker integration. Manage Leads, Users, Roles. Use when the user wants to interact with IDX Broker data.

Registry SourceRecently Updated
General

Restic Workstation Backup

Design, implement, and operate encrypted restic backups for Linux home directories with encryption, deduplication, automated scheduling, and restore testing....

Registry SourceRecently Updated
General

Manychat

ManyChat integration. Manage Organizations. Use when the user wants to interact with ManyChat data.

Registry SourceRecently Updated