【开源算法】RapidOCRPDF：依托于RapidOCR仓库，快速提取PDF中文字，包括扫描版PDF、加密版PDF

admin

2023年12月7日 12:27 本文热度 2326

01 项目链接

https://github.com/RapidAI/RapidOCRPDF

02 项目简介

依托于RapidOCR仓库，快速提取PDF中文字，包括扫描版PDF、加密版PDF。
如果是可以直接复制的PDF，可以直接使用pdf2docx，不再重复造轮子
如果是扫描版PDF，暂时不支持版式还原，后续有空会考虑加上，日期不定。

03 使用

1、安装rapidocr_pdf库

# 基于rapidocr_onnxruntimepip 
# 基于rapidocr_openvinopip

2、使用

脚本使用

from rapidocr_pdf import PDFExtracter
pdf_extracter = PDFExtracter()
pdf_path = 'tests/test_files/direct_and_image.pdf'
texts = pdf_extracter(pdf_path)
print(texts)

命令行使用

$ rapidocr_pdf -h
usage: rapidocr_pdf [-h] [-path FILE_PATH]
options:
-h, --help            show this help message and exit
-path FILE_PATH, --file_path FILE_PATH 
                       File path, PDF or images
$ rapidocr_pdf -path tests/test_files/direct_and_image.pdf

3、输入输出说明

输入：union[str, Path, bytes]
输出：List [页码, 文本内容, 置信度]，具体参见下例：

[
    ['0', '人之初，性本善。性相近，习相远。', '0.8969868'],
        ['1', 'Men at their birth, are naturally good.', '0.8969868'],
]

04 更新日志

2023-08-28 v0.0.6 update:

解决PyMuPDF版本依赖问题

2023-04-17 v0.0.2 update:

完善使用文档

-END-

该文章在 2023/12/7 12:29:51 编辑过

点晴ERP是一款针对中小制造业的专业生产管理软件系统,系统成熟度和易用性得到了国内大量中小企业的青睐。

点晴PMS码头管理系统主要针对港口码头集装箱与散货日常运作、调度、堆场、车队、财务费用、相关报表等业务管理，结合码头的业务特点，围绕调度、堆场作业而开发的。集技术的先进性、管理的有效性于一体，是物流码头及其他港口类企业的高效ERP管理信息系统。

点晴WMS仓储管理系统提供了货物产品管理,销售管理,采购管理,仓储管理,仓库管理,保质期管理,货位管理,库位管理,生产管理,WMS管理系统,标签打印,条形码,二维码管理,批号管理软件。

点晴免费OA是一款软件和通用服务都免费，不限功能、不限时间、不限用户的免费OA协同办公管理系统。