Python读取PDF文档

 1 from pdfminer.converter import PDFPageAggregator
 2 from pdfminer.layout import LAParams
 3 from pdfminer.pdfparser import PDFParser
 4 from pdfminer.pdfparser import PDFDocument
 5 from pdfminer.pdfinterp import PDFResourceManager
 6 from pdfminer.pdfinterp import PDFPageInterpreter
 7 from pdfminer.pdfdevice import PDFDevice
 8
 9 # 获取文档对象
10 fp = open("banReport.pdf","rb")
11
12 # 创建一个PDF文档解释器
13 parser = PDFParser(fp)
14
15 # PDF文档的对象
16 doc = PDFDocument()
17
18 #连接解释器和文档对象
19 parser.set_document(doc)
20 doc.set_parser(parser)
21
22 # 初始化文档
23 doc.initialize(‘‘)
24
25 # 创建PDF资源管理器
26 resource = PDFResourceManager()
27
28 #参数分析器
29 laparam = LAParams()
30
31 # 创建一个聚合器
32 device = PDFPageAggregator(resource,laparams=laparam)
33 # 创建PDF页面解释器
34 interpreter = PDFPageInterpreter(resource,device=device)
35
36 # 使用文档对象得到页面的集合
37 for page in doc.get_pages():
38     # 使用页面解释器来读取
39     interpreter.process_page(page)
40
41     # 使用聚合器来获取内容
42     layout = device.get_result()
43
44     for out in layout:
45         if hasattr(out,"get_text"):
46             print(out.get_text())

时间： 2024-10-19 00:11:53

Python读取PDF文档的相关文章

python解析PDF文档

1.安装 pip install pdfminer3k 2. python读取PDF文档代码分析 PDF格式不是规范格式. 尽管它被叫做"PDF文档", 但并不像word或者html文档.PDF的表现更像一张图片.PDF更像是在一张纸的各个准确的位置上把内容都摆放出来.大部分情况下,没有逻辑结构,比如句子或段落,并且不能自适应页面大小的调整.PDFMiner尝试通过猜测它们的布局来重建它们的结构,但是不保证一定能工作.我知道这样很难看,但是,PDF确实不够规范. 下面这个图片是使用流

【Win10 开发】读取PDF文档

关于用来读取PDF文档的内容的API,其实在Win8.1的时候就有,不过没关系,既咱们讨论的是10的UAP,连同8.1的内容也包括进去,所以老周无数次强调:把以前的内容学好了,就可以在不学习任何新知识的前提直接进入10的开发,至于你信不信,反正我信了. 好,P话不扯了,今天刚升级了Build 10061,VS创建UAP并运行是没什么问题的,不过XAML设计器貌似不太听话,比较淘气:还有个别API有问题,虽然异常报的是CLR损坏,但我们知道RT其实是基于COM的形式注册的,实际上是Win32的数据

使用iTextSharp读取PDF文档

网上有很多获取pdf页数方法有读流判断type/page的但是经过实际测试文件太大的时候往往不是很准确,既然这样我们就不用费心去自己写了可以用itextsharp. 这里是下载地址:http://sourceforge.net/projects/itextsharp/files/ (1)创建一个Windows控制台应用程序,命名为ReadPdfDemo.(2)添加对iTextSharp的引用.(3)在“Program.cs”文件中添加如下引用.using System;using System.

C# 创建、读取PDF文档

生成PDF文档我们通常可以通过文档转换的形式来得到想要的PDF,但我们也可以通过最直接的方式来创建PDF文档,由此本篇文章将介绍C#如何来创建带图.文元素的PDF文档.同理,对于需要读取PDF文档的情况,我们也可以分情况来读取想要的文档元素(文本.图片).在下面的示例中将做详细介绍. 示例要点梳理: 一.创建PDF文档(可支持中文)1.写入文本(包括页边距.字体.字号等设置)2.绘入图片二.读取PDF文档1.读取文本1.1读取全部文本1.2读取指定区域文本2.读取图片使用工具:Free Spir

java读取pdf文档

import java.io.*;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.pdfparser.PDFParser;import org.pdfbox.util.PDFTextStripper; public class PDFReader { public static String file_path = "F:/pdf/网易技术部的MySQL中文资料.pdf"; // 获取PDF内纯文本信息 public St

python读取word文档，插入mysql数据库实例

表格内容如下: 1.实现批量导入word文档,取文档标题中的数字作为编号 2.除取上面打钩的内容需要匹配出来入库入库,其他内容全部直接入库mysql # wuyanfeng# -*- coding:utf-8 -*-# 读取docx中的文本代码示例import docximport pymysqlimport reimport os # 创建数据库链接conn = pymysql.connect( host='rm-bp1vu5d84dg12c6d59o.mysql.rds.aliyuncs.c

python读取word文档中的表格内容

import docx fn = r'D:\长恨歌.docx' doc = docx.Document(fn) # 按段落读取全部数据 for paragraph in doc.paragraphs: print(paragraph.text) # 按表格读取全部数据 for table in doc.tables: for row in table.rows: for cell in row.cells: print(cell.text) table_num = len(doc.tables)

利用xlrd模块实现Python读取Excel文档

# -*- coding: cp936 -*- #python读取excel import xlrd def main(): xls=xlrd.open_workbook("d:\\11.xls") try: mysheet=xls.sheet_by_name("Sheet1")#找到名为Sheet1的工作表.区分大小写 except: print("没有此工作表") return print("共有 %d 行, %d 列."

C#读取PDF文档内容

一.下载PDFBox 访问网址http://sourceforge.net/projects/pdfbox/ (这个绝对是个好网站) 二.引用动态链接库解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有: IKVM.GNU.Classpath.dll PDFBox-0.7.3.dll FontBox-0.1.0-dev.dll IKVM.Runtime.dll 将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间: usin