.net环境下从PDF文档中抽取Text文本的一些方法汇总

1.PDFBox的IKVM版本：据我所知，目前只有PDFBox的IKVM版本能比较好地从PDF中提取文本，PDFBOX更多信息请访问http://www.pdbox.org，关于其应用实例，可以参考CodeProject上的：http://www.codeproject.com/csharp/pdf2text.asp;
2.使用Acrobat的SDK（这个价格可不便宜）；
3.XPDF：如果条件允许可以考虑使用XPDF的PDFToText，XPDF是用C语言编写的PDF解析库，并提供多个工具，开放源代码(如果你熟悉C和dotnet，也许你可以在dotnet环境下编译为你所用），但是基于GUN协议，如果商业应用，需要money；更多信息访问：http://www.foolabs.com/xpdf
4.Ghostscript：另外一个可以考虑的是Ghostscript，官方网址是：www.cs.wisc.edu/~ghost/，抽取Text的方法，google下ps2txt;
5.其它一些相关资源：
http://www.mj10777.de/NETFramework/Desktop/SharpZipLib/PdfToTxt/index.htm
Extract Text from PDF File：http://www.codeproject.com/Purgatory/DotNetPDF.asp?df=100&forumid=104443
Code to extract plain text from a PDF file：http://www.codeproject.com/cpp/ExtractPDFText.asp?df=100&forumid=47947

顺便说下，很多朋友询问iTextSharp中抽取文本的方法，这里说下，就目前而言，iTextSharp还不支持这个功能，也无法抽取图片，当然我通过摸索也只能抽取最简单格式的图片（jpeg），其它的还在研究怎么处理。

时间： 2024-11-01 01:29:26

.net环境下从PDF文档中抽取Text文本的一些方法汇总的相关文章

如何批量删除PDF文档中的”www.it-ebooks.info“

经常在http://www.it-ebooks.info/下载电子教程,但是下载的教程每页都会打上www.it-ebooks.info的标签.之前也没太注意,最近每次看到这些标签都有点小烦躁,想着是不是可以批量去除,首先考虑是在Adobe Acrobat XI Pro下去除水印,但是很遗憾参考很多网上的教程都没有处理掉.萌生了写个脚本批量处理的想法,在谷歌搜到一个外国人写的相关分析和教程,我觉得挺好的,也就依葫芦画瓢演示一遍,算是留个笔记吧. 大致思路是,用hex编辑器打

利用iStylePDF的API实现在PDF文档中动态插入一幅图片

PDF的交互特性里面有一种叫Annotation的注释和标记对象,我们可以在一个注释对象中放入自己想要的数据.在这篇文章中所讲到的插入一幅图片,是我们在PDF应用中经常需要这样做的,比如个人签名的图片等. 首先我们来认识下PDF里面中的Annotations是何东东.一个annotation关联了一些注释.声音.电影等对象,PDF标准中预定义了一些常用的注释类型.在我们的帮助文档中有详细的说明,等下也会用到的,我列举出来了,如下所示名称数值描述 spAnnotText 0 文本 spAnn

Java 在PDF文档中绘制图形

本篇文档将介绍通过Java编程在PDF文档中绘制图形的方法.包括绘制矩形.椭圆形.不规则多边形.线条.弧线.曲线.扇形等等.针对方法中提供的思路,也可以自行变换图形设计思路,如菱形.梯形或者组合图形等. 使用工具:Free Spire.PDF for Java(免费版) Jar文件导入: 步骤1:将安装包中lib文件夹下的两个文件复制到程序中新建的文件夹中(这里在程序中可新建一个文件夹并命名为Lib) 步骤2:复制文件后,将两个添加引用到程序:选中这两个jar文件,点击鼠标右键,选择"Build

[翻译] DTCoreText 从HTML文档中创建富文本

DTCoreText 从HTML文档中创建富文本 https://github.com/Cocoanetics/DTCoreText 注意哦亲,DTRichTextEditor 这个组件是收费的,不贵,才650美元而已^_^. DTCoreText This project aims to duplicate the methods present on Mac OSX which allow creation of NSAttributedString from HTML code on iO

[PDF文件怎么编辑]如何在PDF文档中插入图片

收到一份PDF格式文档需要进行编辑,文件中只有文本内容,需要在页面中为对应的配图,也就是在PDF中添加图片,作为一个只懂得用阅读器来查看文档人来说,编辑PDF文件可谓是一件难事,这种格式的文件是如何编辑的呢? 首先对PDF文档内容的修改需要用到对应的PDF编辑器,所以先进行下载安装. 打开PDF编辑器,选择"文件-打开"命令,打开需要编辑的PDF文档. 文档打开后切换到需要添加图片的页面,选择"文档-添加图像"命令,会弹出打开文件对话框. 在对话框中选择需要添加的图

HTML文档中嵌入CSS的几种方法

HTML中嵌入CSS的方法有三种:嵌入式.内联式.引用式. 一.嵌入式在HTML文档中使用style元素,定义CSS样式. 1 <head> 2 <style type="text/css"> 3 h1{color:red} 4 h2{color:blue} 5 </style> 6 </head> 二.内联式在每个HTML的元素中都可以定义style属性,该属性只可以对本元素起作用.对于其它元素不起作用. 1 <p style

如何删除PDF文档中指定的一页文件？

又是在在查看PDF格式文件的时候会发现文件中有一页文件不符合要求,这个时候我们正常的决定是把该页面进行删除,但是因为PDF文件比较特殊,那么如何才能删除PDF文件中指定的文件页面呢? 1.将捷速PDF编辑器下载到电脑上后,我们运行这款软件,然后点击软件界面里的"打开"选项,将需要编辑的PDF文件打开. 2.打开PDF文件之后,我们需要点击界面里的"文档"按钮,然后点击里面的"删除页面"功能,进行指定页面删除操作. 3.打开删除页面界面后,点击里面

如何用pdfbox-app-1.8.10.jar批处理将pdf文档转换成text文档

1.首先下载pdfbox-app-1.8.10.jar(下载地址:http://pdfbox.apache.org/download.html) 2.将pdfbox-app-1.8.10.jar加载到eclipse工程中 1.新建java工程:Flie->New->Java Project,如PdfToText工程,然后右键该工程BuildPath->Configure Bulid Path..,单击Libaries,点击Add External JARs,将刚才下载好的pdfbox-a

将pdf文档内容转换成jpg图片的方法

将一些文档资料发送给别人查看时,如果不想被别人修改,那么可以把文档内容以图片方式进行方式,也就是将文档转换成一张张的jpg格式的图片.例如一些word文档资料,Excel格式报表或者是PDF格式文件.有些时候页面内容较多,用截图的方式可能会使页面内容截取不完整,或者不清晰,而且对于一些较大的文档也不适合用这种方法,就以pdf格式为例,如何将pdf转成jpg格式的图片呢? 要把文档的页面内容转换成jpg格式的图片需要用相应的转换工具来进行操作.所以需要先安装一个pdf转换成jpg软件. 1 打开转