Python处理PDF和Word文档常用的方法

Python处理PDF和Word文档的模块是PyPDF2,使用之前需要先导入。

打开一个PDF文档的操作顺序是:用open()函数打开文件并用一个变量来接收,然后把变量给传递给PdfFileReader对象,形成一个PdfFileReader对象,这样用PdfFileReader对象下面的各种方法、属性去操作PDF文档。

PdfFileReader对象常用方法:

(1)、PyPDF2.PdfFileReader()方法:代表一个PdfFileReader对象。

(2)、getPage() 方法:获取FDF文档页数;

(3)、extractText()方法:获取当前PDF文档当前页面的文本内容。

(4)、decrypt()方法:用来给加密的PDF文档接收密码;

PdfFileReader对象常用属性:

(1)、pdfReader.numPages 属性:获取当前文档对象总页数。

(2)、 isEncrypted 属性:用于判断PDF文档是否是加密的,如果是加密的,返回True,否则返回False.

例如:

>>> import PyPDF2
>>> pdfFileObj = open(‘meetingminutes.pdf‘, ‘rb‘)
>>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
? >>> pdfReader.numPages
19
? >>> pageObj = pdfReader.getPage(0)
? >>> pageObj.extractText()

 PdfFileWriter 对象

操作顺序:

1.打开一个或多个已有的 PDF(源 PDF) ,得到 PdfFileReader 对象。
2.创建一个新的 PdfFileWriter 对象。
3.将页面从 PdfFileReader 对象拷贝到 PdfFileWriter 对象中。
4.最后,利用 PdfFileWriter 对象写入输出的 PDF。

PdfFileWriter 对象常用方法:

addPage()方法:将源PDF文档页面添加到新的PDF文档里面(复制)。

write()方法:将PdfFileWriter 对象保存的信息写入到变量(文件)中。


例如:

import  PyPDF2minutesFile=open(‘meetingminutes.pdf‘,‘rb‘)pdfReader=PyPDF2.PdfFileReader(minutesFile)page=pdfReader.getPage(0)print(page.rotateClockwise(90))pdfWriter=PyPDF2.PdfFileWriter()    ###创建一个PdfFileWriter()对象;pdfWriter.addPage(page)          ##把复制的源PDF的page页面添加到新的PdfFileWriter() 对象中;pdfoutFile=open(‘rotatedPage.pdf‘,‘wb‘)      ###打开一个名为“rotatedPage.pdf”的文档(没有则新建),然后用一个pdfoutFile变量来接收它。pdfWriter.write(pdfoutFile)            ####用PdfFileWriter()对象的write方法写入到变量中;pdfoutFile.close()minutesFile.close()

原文地址:https://www.cnblogs.com/cqkangle/p/10569009.html

时间: 2024-10-13 08:57:18

Python处理PDF和Word文档常用的方法的相关文章

允许嵌入到PDF,Word文档和其他文件的条形码控件UPC/EAN Barcode Font Advantage Package

IDAutomation的UPC/EAN Barcode Font Advantage Package是一个先进的字体产品,它所用的工具,宏和源代码可以使用一个单一的字体文件来创建UCC-12, UPCA, UPCE, EAN8, EAN13, JAN, ISBN 和Bookland条形码.该字体满足ANSI, ISO和IEC 2000规格说明要求(ISO 15420:2000). 具体功能: 为了创建合适的UPC和EAN条形码类型,打印的字符必须要从UPC/EAN条形码字体数据表上定义的表格上

手机PDF转换Word文档转换工具的操作步骤

之前PDF转换成Word文档在电脑上才可以操作,但是随着科技的进步现在在手机上也可以实现了,这样会更大程度的节约转换的时间,也方便了我们的工作,那具体要怎样操作呢?请看下面这篇文章. 前期准备:安装运行迅捷PDF转换器.将需要转换的PDF文件保存在手机文件管理中. 操作步骤: 1:运行软件在"PDF转换其他"的页面选择"PDF转换Word" 2:在新出现的添加文件页面找到需要添加的文件,然后点击文件的名称. 3:确定转换的文件是否正确,如果正确就点击确定转换. 4:

怎么把pdf转为word文档编辑

基于PDF文件的各种特性,现在很多资源都以PDF个还是发布在网络平台上共享,不过用户不同的需求使其对这类文件的感受天差地别.对于仅仅的下载文件阅读的用户来说,PDF文件提供了高质量的阅读效果;对于上传者来说,PDF文件的安全性也是office文档不可比拟的;但对于在网上寻找资料要进行实际操作的用户来说,这真是一场灾难,PDF是被统一认为的不理想编辑格式,在获取这类文件的资料时,往往让大家陷入困境. 其实要解决PDF格式文件无法复制,不能编辑的问题也不难,使用pdf转换成word转换器分分钟把PD

教你怎样完整的把pdf转为word文档

许多从网上找到的文献资料都是PDF格式的,你想轻松复制几段文字到Word中却发现出现了各种排版混乱的现象.如原本首行有缩进2个字符,但是在Word中却是一色的顶格,而且字体都发生变化了,每到这时我都会花费大把的是时间和精力手动修改,得不偿失. 前几天一个朋友的一句话启发了我,在经过反复的尝试后发现迅捷PDF转换器,该软件功能强大好用,界面简单,功能稳定,支持批量转换,具有多种语言转换,操作起来非常方便,支持多种流行文档格式之间转换,比如PDF转成Word,Word转换成PDF,无需安装Adobe

将pdf转换成word文档格式的方法

PDF文档的规范性使得浏览者在阅读上方便了很多,但是要提取里面的内容比较麻烦,其实只要找到有效的方法,想要编辑pdf也不是什么难事,下面就以大家常常碰到的pdf转word的问题为例,说说如何将pdf转换成word文档. 想要将pdf转换成word,第三方工具时少不了的,要么下载一个pdf转换器,要么使用可以在线转换的平台来转换. 在线转换可以转换2m大的文件,而且是免费的,文件大小合适的朋友用这个方法非常好,进入在线转换平台之后,先选择要转换的文件格式“pdf转word"; 然后单击选择文件按钮

pdf及word文档的读取 pyPDF2,docx

#!python3 #-*- coding:utf8 -*- #PyPDF2可能会打不开某些pdf文档,也不能提取图片,图表或者其他媒介从PDF文件中.但是它能提取文本从PDF中,转化为字符. import PyPDF2 #以二进制方式 读模式打开一个pdf文件 pdfFileObj=open('e:\work\data_service.pdf','rb') #读取pdf文档 pdfReader=PyPDF2.PdfFileReader(pdfFileObj) #返回的是pdf文档的总页数 pr

python用python-docx读写word文档

python-docx库可用于创建和编辑Microsoft Word(.docx)文件.官方文档:https://python-docx.readthedocs.io/en/latest/index.html 备注:doc是微软的专有的文件格式,docx是Microsoft Office2007之后版本使用,其基于Office Open XML标准的压缩文件格式,比 doc文件所占用空间更小.docx格式的文件本质上是一个ZIP文件,所以其实也可以把.docx文件直接改成.zip,解压后,里面的

word文档自动生成方法

创建word文档需要几个接口类,常用application,document,documents,selection等.但word的功能复杂,要认识到每一个类的功能是不可能的.常用的方法是在word的调用宏的录制功能.通过录制的VB代码可以近似找到 相应的C++类 在调用word的接口程序时需使用MSWORD.OLB,其路径位置是C:\Program Files (x86)\Microsoft Office\Office12 在调用类向导后应用"类型库中的MFC类"选项 所有导入的wo

Word文档压缩的方法

我们在工作中,制作word文档的时候,有时候经常需要插入图片,有时插入的图片过多,导致word文档的体积特别大,电脑会反应很慢.我们使用中打开的时候,打开速度也是很慢.而且在我们发送的时候,也是非常耗费时间的.下面小编教大家怎样将word文档压缩到最小.使用工具:迅捷PDF转换器1.PDF转换器是一个功能特别丰富的软件,大家在百度浏览器中搜索PDF转换器,找到相对应的下载链接,下载安装到电脑中.2.大家软件安装完成后,进入功能页面,选择我们需要的功能,点击页面上方的[特色转换]选项,再选择左侧[