怎样将PDF中的文本导出

  现在的一些文档资料会用PDF格式存储的,如果需要提取里面的一些文档内容直接复制则比较麻烦,如果要把里的文字内容都导出来成为txt文本文档的话有哪些方法可以实现呢?



平常我们打开查看都是用阅读器打开PDF文件的,像常用的Adobe Reader就可以将PDF中的文本内容导出来,保存在txt文档中。

工具:Adobe Reader
  首先我们用Adobe Reader打开PDF文档,然后选择“文件-另存为其他”,然后选择“文本”,在弹出的对另存为话框中设置文本保存位置和文件名点击“保存”,这时候就会将当前文档中的文本内容保存为txt文本文档。

  我们可以打开查看保存的txt文件,文本内容都被导出来了,只是在排版上与原来的有些不同。

另外我们还可以运用文档转换工具来将pdf转换为txt文档,这种方法可以将pdf中的文本内容保存到txt中。

工具:迅捷PDF转换器
  先打开转换工具,选择里面的文件转TXT选项,此选项可以将包括PDF在内的其他文档格式转换为txt文档。然后把PDF文档添加到工具中,一次可以添加多个进行转换。

  在文件后面的页码选择中我们可以输入页码范围,以此来设置对文档指定页面内容的转换,然后为文档设置输出位置,最后点击开始转换,等待文件转换完成就可以了。

  转换好之后我们可以直接打开txt文件,PDF中的文本内容也都被保存到txt中了,而且在排版上与原文件基本差不多,这点要比用阅读器另存为txt要好。

时间: 2024-10-12 17:06:07

怎样将PDF中的文本导出的相关文章

Java 读取PDF中的文本和图片

本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Java(免费版)Jar文件获取导入:方法1:通过官网下载jar文件包.下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入java程序.导入后如下图: 方法2: 可通过maven仓库安装导入,可参考导入方法. Java代码示例[示例1]读取PDF中的文本 import com.spir

用PDFMiner从PDF中提取文本文字

1.下载并安装PDFMiner 从https://pypi.python.org/pypi/pdfminer/下载PDFMineer wget https://pypi.python.org/packages/57/4f/e1df0437858188d2d36466a7bb89aa024d252bd0b7e3ba90cbc567c6c0b8/pdfminer-20140328.tar.gz#md5=dfe3eb1b7b7017ab514aad6751a7c2ea 加压并安装 tar -zxvf

从PDF中提取信息----PDFMiner

今天由于某种原因需要将pdf中的文本提取出来,就去搜了下资料,发现PDFMiner是针对 内容提取的,虽然最后发现pdf里面的文本全都是图片,就没整成功,不过试了个文本可复制的 那种pdf文件,发现还是蛮好用的. PDFMiner----python的解析器和分析器 1.官方文档:http://www.unixuser.org/~euske/python/pdfminer/index.html 2.特征 完全使用python编写. (适用于2.4或更新版本) 解析,分析,并转换成PDF文档. P

文本导出到pdf文件(使用QPrinter和QPainter和QTextDocument)

程序中数据导出是经常有的需求,今天学习把文本导出到pdf文件.主要是用QPrinter,QPainter [cpp] view plain copy TextEditToPdf::TextEditToPdf(QWidget *parent, Qt::WFlags flags) : QDialog(parent, flags) { ui.setupUi(this); int ret = connect(ui.m_pExportBtn,SIGNAL(clicked()),this,SLOT(expo

文本导出到pdf文件

程序中数据导出是经常有的需求,今天学习把文本导出到pdf文件.主要是用QPrinter,QPainter TextEditToPdf::TextEditToPdf(QWidget *parent, Qt::WFlags flags) : QDialog(parent, flags) { ui.setupUi(this); int ret = connect(ui.m_pExportBtn,SIGNAL(clicked()),this,SLOT(exportSlot())); } TextEdit

将自己的kindle中的书导出成pdf放到群晖DS218Play

在kindle中也有550本书了,为了在其他设备上也能读(比如boox),决定将kindle whitepaper中的书导出成pdf或mobi,通过ftp上传到群晖DS218Play中 现将具体步骤写下来: 1.安装亚马逊kindle for pc 版本(win7以上版本,我是win10) 下载:https://www.amazon.cn/gp/digital/fiona/kcp-landing-page/ref=klp_mn 2.运行kindle for pc ,导出选中电子书. 3.下载并安

Rdlc技巧,rdlc报表中获取文本框或某个表格单元格中的内容

在RDLC报表中,随意摆放的控件,排列看起来很整齐,但是生成WEB后看就不是很友好了,导出PDF可能又是一个样, 解决这个办法就是把这些摆放在一个容器内,比如Table 内 用ReportItems这个属性来取value值.细节如下 =ReportItems!textbox1.Value + ReportItems!textbox12.Value 注意,页头页脚可以取Body里的值,但是Body里不可以取页头与页脚的值 Rdlc技巧,rdlc报表中获取文本框或某个表格单元格中的内容

【LaTex】Texstudio中中文文本乱码问题的解决方法

Texstudio中中文文本乱码问题的解决方法:1.因为默认编码是UTF8,ctex的编码是GBK,所以出现乱码.将texstudio编码设成GBK乱码自然消失.2.通过拷贝粘贴,不会出现乱码.3.texstudio构建的编译平台是pdflatex,GBK编码时无需加UTF8选项,加了反而慢,甚至出错.不知为什么?4.编码是UTF8时,宜用xelatex编译,很快.5.Sublimetext可将GBK编码转存为UTF8,转存后用texstudio打开不会出现乱码.如果出现将默认编码改成UTF8就

好用的支持PDF转Word文本的工具

我们都知道,借助PDF转换成Word转换器的帮助,可以非常轻松地实现PDF转换成为Word的需求.但是网 上那么多的转换器,你知道哪个好用么?现在的时代讲得就是方便和快捷!快速易操作才是王道. 现在网上那么多的PDF转Word转换器,那么到底哪个PDF转换成Word转换器好呢?国内知名的迅捷PDF转换 成Word转换器近期给了答案:全面升级提升转换效率.支持高质量精准解析和转换.多功能PDF转换功能 涵括八大转换模式,目前迅捷PDF转换成Word转换器已经不再仅仅局限于普通的PDF转换Word的