用PDFMiner从PDF中提取文本文字

1、下载并安装PDFMiner

  从https://pypi.python.org/pypi/pdfminer/下载PDFMineer

wget https://pypi.python.org/packages/57/4f/e1df0437858188d2d36466a7bb89aa024d252bd0b7e3ba90cbc567c6c0b8/pdfminer-20140328.tar.gz#md5=dfe3eb1b7b7017ab514aad6751a7c2ea

  加压并安装

tar -zxvf pdfminer-20140328.tar.gz
cd pdfminer-20140328/
make cmap  #防止中文乱码,否则处理中文会出现一大堆(CID:xxx)
sudo python setup.py install

2、提取文本文字

from cStringIO import StringIO
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
import sys
import string

def convert_pdf_2_text(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    device = TextConverter(rsrcmgr, retstr, codec=‘utf-8‘, laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    with open(path, ‘rb‘) as fp:
        for page in PDFPage.get_pages(fp, set()):
            interpreter.process_page(page)
        text = retstr.getvalue()
    device.close()
    retstr.close()
    return text

text = convert_pdf_2_text(sys.argv[1])
open(‘real?.txt‘,‘wb‘).write(text)

3、测试结果

【1】http://www.unixuser.org/~euske/python/pdfminer/#source

【2】https://www.zhihu.com/question/31586273

时间: 2024-08-05 13:45:54

用PDFMiner从PDF中提取文本文字的相关文章

从PDF中提取信息----PDFMiner

今天由于某种原因需要将pdf中的文本提取出来,就去搜了下资料,发现PDFMiner是针对 内容提取的,虽然最后发现pdf里面的文本全都是图片,就没整成功,不过试了个文本可复制的 那种pdf文件,发现还是蛮好用的. PDFMiner----python的解析器和分析器 1.官方文档:http://www.unixuser.org/~euske/python/pdfminer/index.html 2.特征 完全使用python编写. (适用于2.4或更新版本) 解析,分析,并转换成PDF文档. P

在线提取PDF中图片和文字

无需下载软件,你就可以在线提取PDF中图片和文字,http://www.extractpdf.com/不仅可以获取本地PDF文档的图片和文字,还能获取远程PDF文档的图片和文字.如下图所示:结果本人测试,该工具非常好用,能够轻松提取pdf中图片打包下载(如下图所示),唯一不足的是它只能提取10M一下的PDF文档,对于大文档提取速度可能就力不从心了,总之,是个值得收藏的网站.虽然是英文网站,但是该pdf提取工具对中文支持非常好,不会出现乱码.

怎样将PDF中的文本导出

现在的一些文档资料会用PDF格式存储的,如果需要提取里面的一些文档内容直接复制则比较麻烦,如果要把里的文字内容都导出来成为txt文本文档的话有哪些方法可以实现呢? 平常我们打开查看都是用阅读器打开PDF文件的,像常用的Adobe Reader就可以将PDF中的文本内容导出来,保存在txt文档中. 工具:Adobe Reader 首先我们用Adobe Reader打开PDF文档,然后选择“文件-另存为其他”,然后选择“文本”,在弹出的对另存为话框中设置文本保存位置和文件名点击“保存”,这时候就会将

Java 读取PDF中的文本和图片

本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Java(免费版)Jar文件获取导入:方法1:通过官网下载jar文件包.下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入java程序.导入后如下图: 方法2: 可通过maven仓库安装导入,可参考导入方法. Java代码示例[示例1]读取PDF中的文本 import com.spir

pdf中如何插入文字

PDF中如何插入文字 最近学校要做一个pdf的宣传资料,系领导让我们写作者的写好这篇宣传资料,为了写好这份资料,我们几个很快很认真的写好了这份资料,交给校领导时,领导看了也很满意,不过领导最后说在这篇资料中再加上一段文字就更加形象生动了,我们觉得也很有必要. 但是怎么往文档里面加一段文字呢?可是领导发话了,我们必须要把这段文字加进去.不过如何在PDF中添加文字还真是头一次遇到,有点不知所措.好在我们几个有一个同学对这个比较在行,所以这个问题也不难解决.他告诉我们可以使用一款免费的捷速PDF编辑器

怎样使用PDF编辑软件,怎么从PDF中提取单页

一份PDF文档可能不是每一页的内容都是我们所需要的,但是我们又不是直接将需要的部分复制下来,剩下的页面也不想直接的删除掉,那么我们可不可以提取呢?下面一起看PDF编辑器怎么提取pdf其中一页.就跟小编一起来看看下面的文章吧. 操作软件:迅捷PDF编辑器 1.打开运行迅捷PDF编辑器,在编辑器中打开需要修改的PDF文件. 2.打开文件后,选择编辑器中菜单栏里的文档,然后选择文档中的提取页面,点击提取页面工具. 3.还可以在左边缩略图的部分打开提取页面工具,点击鼠标右键,就会弹出一个框,然后选择提取

c++之从标准流中提取文本数据

istream & istream :: get ( char * ,  int ,  char = '\n' ) ; istream & istream :: getline ( char * ,  int ,  char = '\n' ) ; 作用:从文本中提取指定个数的字符,并在串数组末添加一个空字符 其中,第一个参数指向接受字符数据的字符数组 第二个参数指定字符数组最多可容纳的字符个数 第三个参数用于指定一个终止符,缺省为换行符 操作遇到终止符或提取到规定个数字符时,提取终止 区别

c#中输入文本文字,将输入的文字生成图片

private void button1_Click(object sender, EventArgs e) { //获取文本 string text = this.txtName.Text; //得到Bitmap(传入Rectangle.Empty自动计算宽高) Bitmap bmp = TextToBitmap(text, this.txtName.Font, Rectangle.Empty, this.txtName.ForeColor, this.txtName.BackColor);

在RichTextBox控件中替换文本文字

实现效果: 知识运用: RichTextBox控件的SelectedText属性 实现代码: private void button1_Click(object sender, EventArgs e) { if (richTextBox1.SelectedText.ToString()!= "") { richTextBox1.SelectedText = textBox1.Text; } else { MessageBox.Show("请选择要替换的文字");