python read PDF for chinese

 1 import sys
 2 import importlib
 3 importlib.reload(sys)
 4
 5 from pdfminer.pdfparser import PDFParser,PDFDocument
 6 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
 7 from pdfminer.converter import PDFPageAggregator
 8 from pdfminer.layout import LTTextBoxHorizontal,LAParams
 9 from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
10
11 ‘‘‘
12  解析pdf 文本,保存到txt文件中
13 ‘‘‘
14 path = ‘C:\\Users\\needRead.pdf‘
15 def parse():
16     fp = open(path, ‘rb‘) # 以二进制读模式打开
17     #用文件对象来创建一个pdf文档分析器
18     praser = PDFParser(fp)
19     # 创建一个PDF文档
20     doc = PDFDocument()
21     # 连接分析器 与文档对象
22     praser.set_document(doc)
23     doc.set_parser(praser)
24
25     # 提供初始化密码
26     # 如果没有密码 就创建一个空的字符串
27     doc.initialize()
28
29     # 检测文档是否提供txt转换,不提供就忽略
30     if not doc.is_extractable:
31         raise PDFTextExtractionNotAllowed
32     else:
33         # 创建PDf 资源管理器 来管理共享资源
34         rsrcmgr = PDFResourceManager()
35         # 创建一个PDF设备对象
36         laparams = LAParams()
37         device = PDFPageAggregator(rsrcmgr, laparams=laparams)
38         # 创建一个PDF解释器对象
39         interpreter = PDFPageInterpreter(rsrcmgr, device)
40
41         # 循环遍历列表,每次处理一个page的内容
42         for page in doc.get_pages(): # doc.get_pages() 获取page列表
43             interpreter.process_page(page)
44             # 接受该页面的LTPage对象
45             layout = device.get_result()
46             # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性,
47             for x in layout:
48                 if (isinstance(x, LTTextBoxHorizontal)):
49                     with open("C:\\Users\\trasformatResult.txt", ‘a‘) as f:
50                         results = x.get_text()
51                         print(results)
52                         f.write(results + ‘\n‘)
53
54 if __name__ == ‘__main__‘:
55     parse()

原文地址:https://www.cnblogs.com/jiujue/p/10810466.html

时间: 2024-10-25 11:03:18

python read PDF for chinese的相关文章

Python 将pdf转换成txt(不处理图片)

上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要.查找了很多资料,在linux下要将doc转换成txt确实有难度,所以考虑先将pdf转换成txt. 师兄推荐使用PDFMiner来处理,尝试了一番,确实效果不错,在此和大家分享. PDFMiner 的简介:PDFMiner is a tool for extracting information from PDF documents.

Python处理PDF与CDF

在拿到数据后,最需要做的工作之一就是查看一下自己的数据分布情况.而针对数据的分布,又包括pdf和cdf两类. 下面介绍使用python生成pdf和cdf的方法: 使用matplotlib的画图接口hist(),直接画出pdf分布: 使用numpy的数据处理函数histogram(),可以生成pdf分布数据,方便进行后续的数据处理,比如进一步生成cdf: 使用seaborn的distplot(),好处是可以进行pdf分布的拟合,查看自己数据的分布类型: 上图所示为采用3种算法生成的pdf图.下面是

Python绘制PDF文件~超简单的小程序

Python绘制PDF文件 项目简介 这次项目很简单,本次项目课,代码不超过40行,主要是使用 urllib和reportlab模块,来生成一个pdf文件. reportlab官方文档 http://www.reportlab.com/docs/reportlab-userguide.pdf 我们看看这个网页上的原数据: http://www.swpc.noaa.gov/ftpdir/weekly/Predict.txt 代码: #-*- coding: utf-8 -*- # 1. 用于下载原

python解析PDF文档

1.安装 pip install pdfminer3k 2.  python读取PDF文档代码分析 PDF格式不是规范格式. 尽管它被叫做"PDF文档", 但并不像word或者html文档.PDF的表现更像一张图片.PDF更像是在一张纸的各个准确的位置上把内容都摆放出来.大部分情况下,没有逻辑结构,比如句子或段落,并且不能自适应页面大小的调整.PDFMiner尝试通过猜测它们的布局来重建它们的结构,但是不保证一定能工作.我知道这样很难看,但是,PDF确实不够规范. 下面这个图片是使用流

Python处理PDF和Word文档常用的方法

Python处理PDF和Word文档的模块是PyPDF2,使用之前需要先导入. 打开一个PDF文档的操作顺序是:用open()函数打开文件并用一个变量来接收,然后把变量给传递给PdfFileReader对象,形成一个PdfFileReader对象,这样用PdfFileReader对象下面的各种方法.属性去操作PDF文档. PdfFileReader对象常用方法: (1).PyPDF2.PdfFileReader()方法:代表一个PdfFileReader对象. (2).getPage() 方法:

[转]Python 解析 PDF 文本和表格的四大方法介绍

Python 解析 PDF 文本和表格的四大方法介绍 看到一个不错的知识文章,和大家分享一下: 很多文件为了安全都会存成 PDF 格式,比如有的论文.技术文档.书籍等等,程序读取这些文档内容带来了很多麻烦.Python 目前解析 PDF 的扩展包有很多,这里将对比介绍 PyPDF2.pdfplumber.pdfminer3k 以及 Camelot,告诉你哪个是好用的 PDF 解析工具. 本文使用的案例 PDF 文档下载链接: 链接: https://pan.baidu.com/s/1zH7vY4

Python读取PDF内容

晚上翻看<Python网络数据采集>这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则适用的是已经把pdf内容合到html里的情况. 现在这个python版本的代码,是读取pdf文件内容(互联网上的或是本地的),觉得这个很有参考价值,就发个贴记录下来.这段代码主要是用了一个第三方库PDFMiner3K把PDF读成字符串,然后用StringIO转换成文件对象. from urllib.request import urlopen from p

使用Python生成pdf文件

Python平台的优秀PDF报表类库Reportlab.它不属于Python的标准类库,所以必须手动下载类库包并安装:       yum install python-reportlab -y    这篇文章将介绍reportlab中基本常用的api,使用canvas画出一份整洁的PDF报表.详细内容参考reportlab的官方user guide. 示例一.生成一段文字 #!/usr/bin/python from reportlab.pdfgen import canvas def hel

用python操作PDF文件

本次学习的内容主要是:从PDF读取文本内容和从已经有的文档生成新的PDF. 需要用到的模块是PyPDF2. 首先要在命令行中运行pip install PyPDF2. 一.从PDF读取文本 PyPDF2无法从pdf文档中提取图像,图表和其他媒体,但是它可以提取文本,并且将文本返回为python字符串.import PyPDF2# ===============从pdf中提取文本===========pdffile = open(r'E:\python让繁琐的工作自动化\13_处理pdf和word