温馨提示:虚线框内为网盘直链资源,点击即可直达。
一.软件简介
OCRmyPDF是一个应用程序和库,它向PDF中的图像添加文本“层”,使扫描的PDF图像可搜索。它使用OCR来猜测图像中包含的文本。它是用Python编写的。OCRmyPDF支持允许自定义处理步骤的插件。
二.开发背景
近期看到关于OCRmyPDF的推文,联想到自己手上扫描的协议、文件一大把,有时页码较多,查找关键内容很不便捷,于是下班时间折腾了两天,完成了Windows本地化安装测试(可批量、可选页、可输入图片等),文件处理后,相当于在PDF文件的每一页中添加了透明的文本层,内容检索非常效率。


三.服务器上部署
在linux服务器中部署,测试服务器地址,http://175.178.230.228/
# 服务器安装顺序
sudo apt-get -y remove ocrmypdf
sudo apt-get -y update
sudo apt-get -y install \
ghostscript \
icc-profiles-free \
libxml2 \
pngquant \
python3-pip \
tesseract-ocr \
zlib1g
pip3 install ocrmypdf
# 简单的python代码,具体参数参考官方文档
import ocrmypdf
file = r'input.pdf'
output = r'output.pdf'
ocrmypdf.ocr(file,output ,lang=['chi_sim','eng'], deskew=True)
声明:本站所有资源均来自互联网,若本站内容侵犯了原著者的合法权益,可联系我们进行处理。邮箱:1246082667@qq.com