Textin 文档解析
快速开始
第1步:注册获取 API 凭证
首次使用需要先注册 Textin 账号并获取 API 凭证:
- 访问注册链接:https://www.textin.com/register/code/3EJS7P
- 注册完成后,登录并进入"开发者与账户信息"页面
- 获取
x-ti-app-id和x-ti-secret-code
获取凭证后,告诉我这两个值,我会帮你配置。
第2步:配置凭证
告诉我你的 x-ti-app-id 和 x-ti-secret-code,我会保存到配置文件中。
第3步:解析文档
配置好凭证后,你可以这样使用:
解析这个PDF文件
解析这张图片为markdown
提取这个文档的目录结构
支持的文件格式
- 图片:png, jpg, jpeg, bmp, tiff, webp
- 文档:pdf, doc, docx, html, mhtml, xls, xlsx, csv, ppt, pptx, txt, ofd, rtf
- 文件大小:最大 500MB
可选参数说明
解析模式 (parse_mode)
auto- 由引擎自动选择,适用范围最广scan- 文档统一当成图片解析lite- 轻量版,只输出表格和文字结果parse- 仅电子档文字解析,速度最快vlm- 视觉语言模型解析模式
默认:scan
表格格式 (table_flavor)
html- 按 HTML 语法输出表格md- 按 Markdown 语法输出表格none- 不进行表格识别
默认:html
获取图片 (get_image)
none- 不返回任何图像page- 返回每一页的整页图像objects- 返回页面内的子图像both- 返回整页图像和图像对象
默认:objects
标题层级 (apply_document_tree)
1- 生成标题层级0- 不生成标题
默认:1
公式识别 (formula_level)
0- 全识别1- 仅识别行间公式2- 不识别
默认:0
去水印 (remove_watermark)
0- 不去水印1- 去水印
默认:0
图表识别 (apply_chart)
0- 不开启图表识别1- 开启图表识别,以表格形式输出
默认:0
其他常用参数
pdf_pwd- PDF 密码(加密文档时使用)page_start- 从第几页开始解析(PDF 时有效)page_count- 解析的页数(默认 1000,最大 1000)dpi- 坐标基准(72/144/216,默认 144)get_excel- 是否返回 Excel(0 或 1)crop_dewarp- 是否切边矫正(0 或 1)markdown_details- 是否返回 detail 字段(0 或 1,默认 1)page_details- 是否返回 pages 字段(0 或 1,默认 1)
使用示例
基础用法
帮我解析这个PDF文件
指定参数
用 parse 模式解析这个PDF
用 lite 模式解析,输出 markdown 表格
解析这个文件并提取目录
错误码处理
常见错误:
40101- App ID 或 Secret 为空40102- App ID 或 Secret 无效40003- 余额不足40303- 文件类型不支持
如遇错误,请检查凭证是否正确,或咨询用户。