提取PDF文件中的文本信息

转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/43527755

我们从网上下载的PDF文件有的是加密处理过的,无法复制其中的内容,对于这类文件的内容提取可以通过该工具实现

PDF加密

PDF文件经过加密处理之后是无法简单的复制的,PDF文件的属性也如下图所示:

工具的使用方法

软件的目录结构如下图:

lib文件夹下是程序的运行环境和代码;

pdf文件夹是需要转化的pdf文件所在的文件夹;

txt文件夹是转化后生成的txt文件所在的文件夹;

run.bat是运行文件。

将要转换的pdf文件放到pdf文件夹下,直接双击run.bat文件即可(ps:程序是后台运行,会花费一定的时间)

测试运行结果

如有需要,在评论中留下邮箱即可(原本想放到资源上的,无奈有大小限制,只得放弃)

源代码不大,主要是有代码运行的JDK环境,不放环境,电脑没安装JDK就无法使用,等个人域名备案成功之后,会将该程序放到自己的网站上。

无jdk的下载地址:http://download.csdn.net/detail/xiaojimanman/8426309 (下载后需要电脑安装1.7及以上的jdk)

时间: 2024-07-30 23:45:45

提取PDF文件中的文本信息的相关文章

电脑中如何提取PDF文件中的图片

通常,我们在一些PDF文件中看到一些好看的图片,想将图片保存下来,但是PDF文件是无法编辑的,在文件自身当中我们无法将图片完成的提取出来,因此大家都会想办法在不破坏图片完整性的情况下将图片从PDF文件中提取出来,下面就跟大家分享一下小编是从电脑中如何提取PDF文件中的图片.借助工具:×××换器1.在PDF文件中提取图片,本身也是一种对文件的编辑,知识PDF文件无法编辑,所以我们要借助工具来进行编辑,工具可以直接在百度浏览器中下载.2.下载安装好工具,打开工具,进入到操作页面,操作页面左边是功能栏

PDF编辑技巧:怎么提取PDF文件中的页面

怎么提取PDF文件中的页面?有些时候我们需要提取PDF文件中的页面,不知道如何操作.想要提取PDF文件中的页面就可以选择使用迅捷PDF编辑器来进行操作,下面就为大家分享一下PDF编辑器如何提取PDF文件页面的操作. 操作软件:迅捷PDF编辑器 具体操作方法如下: 1:首先将迅捷PDF编辑器安装到自己的电脑中,打开PDF编辑器将需要提取页面的PDF文件添加到软件中. 2:在软件的顶部找到文档,点击文档在下面找到提取页面,点击提取页面在软件中会出现一个弹窗. 3:在软件的弹窗中可以找到页面范围,选择

使用pdfbox提取PDF文件中的flash文件

private static void parsePdfFile(String file) throws Exception { FileInputStream fis = new FileInputStream(file); PDFParser pdfParser = new PDFParser(fis); pdfParser.parse(); COSDocument cosDocument = pdfParser.getDocument(); List<COSObject> objList

将PDF文件中的表格转换成Excel怎么转换

在工作中接收发送文档很多会用PDF格式进行发送,而PDF这种格式文档传输比较方便,而且里面页面内容是不易编辑的.如果里面还包含一些表格数据需要用的话,复制粘贴是不行的,重新制作表格也是不可取的.要将PDF文件中的一些表格数据提取出来还是有方法的,我们可以直接将PDF文件转换成Excel表格,然后保留表格部分内容就可以了. 如果PDF文件比较大,里面有很多的页面,那么先打开PDF文件,查看一下需要哪些页面的表格数据,并记录下来,这样可以只对这些页面进行转换就行了,弄好后关闭PDF文件. 打开PDF

第十六章 在文件中搜索文本工具:grep命令 和egrep命令

第十六章 在文件中搜索文本工具:grep命令 和egrep命令 名词解释 grep(global search regular expression(RE)and print out the line,全面搜索正则表达式并把行打印出来) grep是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来. 选项 - -a :不要忽略二进制数据 - -A <显示行数>:除了显示符合范本样式的那一行之外,并显示该行之后的内容. - -b :在显示符合范本样式的那一行之外,并显示该行

用grep在文件中搜索文本

搜索包含特定模式的文本行: grep "pattern" filename 也可以像下面从stdin中读取: echo -e "This is a word. \n next line ." |grep word 单个grep命令也可以对多个文件进行搜索: grep "match_text" file1 file2 file3 ... 用--color选项可以在输出行中着重标记匹配到的单词: grep word filename --color=

从pdf 文件中抽取特定的页面

前段时间买了一个kindle 电子书阅读器.我想用它来读的pdf文档.当然最主要是用来读python标准库&mysql的官方文档. 问题就来了.这两个都是大头书.之前用mac看还好.用kindle就真的不方便了:主要是kindle对pdf的支持不太好.不能 目录导航:于是我就想把大的pdf文件按章节分解成小的pdf文件 一.安装PyPDF2这个python包: pip3 install PyPDF2 二.从源pdf文件中抽取页面: #/usr/local/python/bin/python3 f

利用python 提取log 文件中的关键句子,并进行统计分析

利用python开发了一个提取sim.log 中的各个关键步骤中的时间并进行统计的程序: #!/usr/bin/python2.6 import re,datetime file_name='/home/alzhong/logs/qtat1/R2860.01.13/sim-applycommitrollback-bld1.log' file=open(file_name,'r') acnum=[];time_res=[];lnum=0 def trans_time(time): t1=datet

PDF页面怎么删除、如何删除PDF文件中的其中一页!

大家都知道,PDF格式文件是一种非常特殊的文件,因为这种文件的兼容性非常好,可以跨越非常多的平台进行使用,但是也正是因为这种文件的特殊性导致这种文件不易被编辑,如果这种文件中的一个页面出现错误该怎么删除呢?下面就一起来看看怎么删除PDF文件中的其中一页吧! 1.打开电脑,在浏览中输入"迅捷PDF编辑器",找到该软件并将最新的软件下载安装到电脑上. 2.运行该软件,点击"打开"按钮,将要删除页面的PDF文件打开添加到迅捷PDF编辑器的操作页面. 3.在软件界面左侧的缩