全球主机交流论坛

标题: 利用轻量服务器搭建pdf在线工具箱(支持OCR!!!支持OCR!!!) [打印本页]

作者: lixiaofei    时间: 2021-9-17 00:22
标题: 利用轻量服务器搭建pdf在线工具箱(支持OCR!!!支持OCR!!!)
本帖最后由 lixiaofei 于 2021-9-17 00:28 编辑

和昨天发的不一样!!!!今天发的这个支持OCR!!!!!

前两天需要压缩一个pdf文件,由于pdf中涉及到了一些个人信息,不想使用在线的网站的压缩。下载了几个离线的压缩工具,大部分居然都需要收费,虽然后来找到了一个免费的工具搞定了这件事,不过想到后面可能还会碰到这样的事情,因此萌生了自己做一个在线压缩pdf的网站的想法。查阅了相关资料,最后借助ghostscript 实现了我的需求,等于是站在巨人的肩膀上吧。不过有mjj觉得网站功能太单调了,还有mjj想要OCR的功能,我看了一下ghostscript的文档,发现ghostscript是支持OCR的,那还等什么,集成就完事了。如果mjj们觉得有用的话,给我的github仓库https://github.com/lixiaofei123/pdftoolbox点一个star吧。由于新的工具网站不仅仅是只支持pdf压缩,现在也支持OCR,后面可能还会增加别的功能,因此我将原来的pdfcomress仓库换成了pdftoolbox(PDF工具箱)。

下面是新版PDF工具箱的首页


先说安装。首先要安装PDF工具箱,肯定要购买一台服务器,这里我强烈推荐腾讯云的轻量服务器,目前还在秒杀活动,2C4G的配置一年只需要74元。秒杀地址我就不放了,相信mjj们都可以找到



然后选择【地域】和【镜像】,【地域】选择距离自己最近的,【镜像】选择Docker,当然如果自己会安装docker的话,也可以尝试自己安装。我这里为了方便,就直接选择自带的docker镜像了



购买了服务器以后,然后配置密钥之类的,再用ssh终端工具连接上。这些就不讲了,相信mjj们比我熟悉。这里我假设mjj们已经安装好了docker环境。

我把程序打包成了Docker镜像,每次提交都用github action自动构建Docker镜像并自动push到docker仓库里。如果mjj们还不放心的话,可以访问我的github仓库https://github.com/lixiaofei123/pdftoolbox,里面有dockerfile,可以自行构建镜像。

用docker安装,那自然是十分简单,几行命令就搞定了

mkdir -p /data/pdftoolbox/input
mkdir -p /data/pdftoolbox/output
docker run -d --name pdftoolbox --restart=always -p 8082:8082 -v /data/pdftoolbox/input:/opt/pdftoolbox/input  -v /data/pdftoolbox/output:/opt/pdftoolbox/output  mrlee326/pdftoolbox

其中/opt/pdftoolbox/input是用来放置用户上传文件的目录,/opt/pdftoolbox/output是用来放转换后的文件的目录,建议将其挂载在宿主机上,这样就方便后面清理文件了。有能力的话,可以自己写一个定时脚本来清理过期的文件。

如果上面执行没有报错的话,那么基本上就已经启动成功了,此时访问ip:8082就可以看到首页了。

先来试用一下pdf压缩功能。在低质量模式下,可以将pdf的体积压缩到原来的1/4大小。



pdf压缩主要针对的是包含图片比较多的pdf,如果原pdf中基本上都是文字的话,那么压缩的效果就不太理想。因为基本上没压缩的空间了。

再来试一下OCR功能,我是从专利网上随便下载了一个pdf进行测试的。这个功能同样是基于ghostscript来实现的。先激活【PDF文字提取】选项,然后根据需要来选择额外支持的语言,目前内部默认支持简体中文和英文,因此基本上不需要选择。点击上传文件,就会自动进行转换,如果机器的性能比较低的话,这一步可能会比较慢,请耐心等待几分钟。等下面的进度条全部走完,并出现【点击下载】按钮,说明转换完毕,这时候点击下载即可。





如果需要配置HTTPS的话,相信这么简单的东西,mjj自己都会配置,我就不班门弄斧了。通过上面的过程,我们就有了一个属于自己的在线pdf压缩网站,这样也不用担心自己的个人信息被别人保存,同时更换电脑的话也不需要重新安装软件。











作者: 马博士    时间: 2021-9-17 00:26
技术帖顶
作者: GoogleCloud    时间: 2021-9-17 00:27
Mark一下
作者: h20    时间: 2021-9-17 00:28
提示: 作者被禁止或删除 内容自动屏蔽
作者: lixiaofei    时间: 2021-9-17 00:28
居然可以发链接了,感动
作者: lixiaofei    时间: 2021-9-17 00:29
冲啊 让阅读量上1000
作者: b66667777    时间: 2021-9-17 00:29
支持一下
作者: Nnag    时间: 2021-9-17 00:30
冲啊
作者: greencloudvps    时间: 2021-9-17 00:30
支持一下
作者: lixiaofei    时间: 2021-9-17 00:30
h20 发表于 2021-9-17 00:28
很遗憾的告诉你,我用QQ来OCR

这么巧,我也是
作者: W4ter    时间: 2021-9-17 00:32
我猜你下一个应该要发webrtc70吧
作者: 我是坏虫    时间: 2021-9-17 00:32
提示: 作者被禁止或删除 内容自动屏蔽
作者: lskz    时间: 2021-9-17 00:39
我一般是直接转word了
作者: lixiaofei    时间: 2021-9-17 00:40
W4ter 发表于 2021-9-17 00:32
我猜你下一个应该要发webrtc70吧

说起这个,去年编译webrtc编译到吐血。
作者: 告辞    时间: 2021-9-17 00:50
大佬是个好人,usage从买服务器开始教,还不放aff
作者: lixiaofei    时间: 2021-9-17 00:55
告辞 发表于 2021-9-17 00:50
大佬是个好人,usage从买服务器开始教,还不放aff

mjj都人手轻量服务器了
作者: 用户    时间: 2021-9-17 02:08
后排支持
作者: 无时崩溃    时间: 2021-9-17 07:59
后排支持
作者: yy520    时间: 2021-9-17 08:05
晚点搭个来玩玩
作者: 所長    时间: 2021-9-17 08:15
技术贴mark一下
作者: FreeDog    时间: 2021-9-17 08:24
离线压缩……adobe不香吗…… 没搞懂
作者: qqab    时间: 2021-9-17 08:25
我是用wps 来ocr
作者: dollaring    时间: 2021-9-17 08:32
感谢分享,把成品发出来看看啊
作者: lixiaofei    时间: 2021-9-17 08:50
dollaring 发表于 2021-9-17 08:32
感谢分享,把成品发出来看看啊

在论坛里发自己的地址,怕有大佬教我做人
作者: littlemjj    时间: 2021-9-17 08:51
感谢分享,智齿
作者: lixiaofei    时间: 2021-9-17 10:15
dd
作者: lixiaofei    时间: 2021-9-17 14:57

作者: 含风    时间: 2021-9-17 16:12
我一般用TIM来OCR
作者: lixiaofei    时间: 2021-9-17 17:33
含风 发表于 2021-9-17 16:12
我一般用TIM来OCR

tim可以用来识别pdf吗,没用过,qq好像只能图片。
作者: 小穴儿    时间: 2021-9-17 19:37
大佬 docker有arm64的码?
作者: lixiaofei    时间: 2021-9-17 19:47
小穴儿 发表于 2021-9-17 19:37
大佬 docker有arm64的码?

没有,可以自己构建。仓库里那个gs应该要换成arm版本的
作者: tianzi1981    时间: 2021-9-18 10:47
甲骨文ARM新用法?

作者: lixiaofei    时间: 2021-9-18 10:53
tianzi1981 发表于 2021-9-18 10:47
甲骨文ARM新用法?

刚申请的信用卡,到时候我也搞一个arm的免费机器
作者: 小学生    时间: 2021-9-18 14:56
不明白评论里为什么这么多阴阳怪气的人,楼主分享自己的东西,你们用得到就用,用不到可以不回复,非要秀一下自己的优越感?这样的人越多,论坛以后大神越少
作者: yl1677866238    时间: 2021-9-18 15:12
OCR当然要用ABBYY
作者: occ    时间: 2021-9-18 15:59
好东西,支持一下
作者: 乌拉擦    时间: 2021-9-18 16:03
流弊,感觉还可以
作者: lixiaofei    时间: 2021-9-19 12:40
occ 发表于 2021-9-18 15:59
好东西,支持一下

谢谢




欢迎光临 全球主机交流论坛 (https://mjj.022333.xyz/) Powered by Discuz! X3.4