PyPDF2处理PDF文件

PDF文件对我们的眼睛和打印机都很友好,我做完文档是爱转成pdf文件的。

在可编辑文档上编辑半天,又是图片又是文字又是表格又是流程图......各种对象光对齐就能把人烦死,

好不容易头昏脑胀滴做完了,接个电话的功夫手欠的熊孩子就能把你辛辛苦苦做了半天的文档改得面目全非,

不是所有情况都能恢复,就算能恢复要不要做很久?

如果是PDF文件的话,你让TA尽管折腾,想动内容TA做梦去吧,最多也就是给你扔回收站嘛

不过呢,这也侧面反应了PDF文件对编辑这个举动相当不友好!

PyPDF2能帮我们把PDF文件的页抽取出来,但是能给你看的只有文字(还只能是英文字儿,中文字反正它不给我看),转成字符串给你看,图片啊格式啊这些咱们统统看不到......嗯......它抽取出来了但你看不到,

所以除了抽取文字这个行为外,你只能以页为单位对pdf文件进行操作。还有哦,PyPDF2这个模块在抽取pdf的文字图片时可能会出错,有时甚至读不了,对此我们没有什么办法,好在大部分它都能处理。

PDF文件是不允许我们编辑的,所谓的编辑其实是把PDF文件先读到读对象(如果加密过的PDF文件这时候解密),而后一页一页取到页对象,这时候可以跟包含水印(或logo)文件的页对象进行叠加,就是所谓的加水印。把处理过or没处理过的页对象一页一页加到PDF文件的写对象,这时候可以进行加密,最后由写对象把处理结果写到“你起的名字.pdf“文件中。

如果你觉得混乱没关系,把别人公布在网上的程序当模版,拿来做个性化处理就行啦,我总这么干,灰常省事儿!

这视频很长,等我把计划的程序实例录完,就从这些长视频里截一些“拿来就能用”的短视频,好像前两篇发的那种。
 

1 1 1 1 1 1 1 1 1 1 Rating 2.75 (4 Votes)