【开源算法】RapidOCRPDF:依托于RapidOCR仓库,快速提取PDF中文字,包括扫描版PDF、加密版PDF
当前位置:点晴教程→知识管理交流
→『 技术文档交流 』
https://github.com/RapidAI/RapidOCRPDF
1、安装rapidocr_pdf库 # 基于rapidocr_onnxruntimepip # 基于rapidocr_openvinopip
2、使用
from rapidocr_pdf import PDFExtracter pdf_extracter = PDFExtracter() pdf_path = 'tests/test_files/direct_and_image.pdf' texts = pdf_extracter(pdf_path) print(texts)
$ rapidocr_pdf -h usage: rapidocr_pdf [-h] [-path FILE_PATH] options: -h, --help show this help message and exit -path FILE_PATH, --file_path FILE_PATH File path, PDF or images $ rapidocr_pdf -path tests/test_files/direct_and_image.pdf 3、输入输出说明
[ ['0', '人之初,性本善。性相近,习相远。', '0.8969868'], ['1', 'Men at their birth, are naturally good.', '0.8969868'], ] 04 更新日志
该文章在 2023/12/7 12:29:51 编辑过 |
关键字查询
相关文章
正在查询... |