Apache PDFbox开发指南之PDF文档读取

转载请注明来源：http://blog.csdn.net/loongshawn/article/details/51542309

相关文章：

1、介绍

Apache PDFbox是一个开源的、基于Java的、支持PDF文档生成的工具库，它可以用于创建新的PDF文档，修改现有的PDF文档，还可以从PDF文档中提取所需的内容。Apache PDFBox还包含了数个命令行工具。
Apache PDFbox于2016年4月26日发布了最新的2.0.1版。

备注：本文代码均是基于2.0及以上版本编写。

官网地址：https://pdfbox.apache.org/index.html

PDFBox 2.0.1 API在线文档：https://pdfbox.apache.org/docs/2.0.1/javadocs/

2、特征

Apache PDFBox主要有以下特征：
PDF读取、创建、打印、转换、验证、合并分割等特征。

3、开发实战

3.1、场景说明

1、读取PDF文本内容，样例中为读取体检报告文本内容。
2、提取PDF文档中的图片。这里仅仅实现将PDF中的图片另存为一个单独的PDF，至于需要直接输出图片文件（暂时没有实现），大家可以参考我的代码加以拓展，主要就是处理PDImageXObject对象。

3.2、所需jar包

pdfbox-2.0.1.jar下载地址

fontbox-2.0.1.jar下载地址

将上述两jar包添加到工程库中，如下：

3.3、文本内容提取

3.3.1、文本内容提取

创建PdfReader类，编写下述功能函数。

package com.loongshaw;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

import org.apache.pdfbox.io.RandomAccessBuffer;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class PdfReader {

    public static void main(String[] args){

        File pdfFile = new File("/Users/dddd/Downloads/0571888890423433356rrrr_182-93201510313223336-2.pdf");
        PDDocument document = null;
        try
        {
            // 方式一：
            /**
            InputStream input = null;
            input = new FileInputStream( pdfFile );
            //加载 pdf 文档
            PDFParser parser = new PDFParser(new RandomAccessBuffer(input));
            parser.parse();
            document = parser.getPDDocument();
            **/

            // 方式二：
            document=PDDocument.load(pdfFile);

            // 获取页码
            int pages = document.getNumberOfPages();

            // 读文本内容
            PDFTextStripper stripper=new PDFTextStripper();
            // 设置按顺序输出
            stripper.setSortByPosition(true);
            stripper.setStartPage(1);
            stripper.setEndPage(pages);
            String content = stripper.getText(document);
            System.out.println(content);
        }
        catch(Exception e)
        {
            System.out.println(e);
        }

    }

}

3.3.2、过程说明

PDF文件加载有两种方式，无明显差异，方式二代码较简洁：

// 方式一：
        InputStream input = null;
        input = new FileInputStream( pdfFile );
        //加载 pdf 文档
        PDFParser parser = new PDFParser(new RandomAccessBuffer(input));
        parser.parse();
        document = parser.getPDDocument();
 // 方式二：
        document=PDDocument.load(pdfFile);

3.3.3、执行结果

3.4、图片提取（2016-12-02添加）

3.3.1、图片提取

public static void readImage(){

        // 待解析PDF
        File pdfFile = new File("/Users/xiaolong/Downloads/test.pdf");
        // 空白PDF
        File pdfFile_out = new File("/Users/xiaolong/Downloads/testout.pdf");

        PDDocument document = null;
        PDDocument document_out = null;
        try {
            document = PDDocument.load(pdfFile);
            document_out = PDDocument.load(pdfFile_out);
        } catch (IOException e) {
            e.printStackTrace();
        }  

        int pages_size = document.getNumberOfPages();

        System.out.println("getAllPages==============="+pages_size);
        int j=0;

        for(int i=0;i<pages_size;i++) {
            PDPage page = document.getPage(i);
            PDPage page1 = document_out.getPage(0);
            PDResources resources = page.getResources();
            Iterable xobjects = resources.getXObjectNames();

            if (xobjects != null) {
                Iterator imageIter = xobjects.iterator();
                while (imageIter.hasNext()) {
                    COSName key = (COSName) imageIter.next();
                    if(resources.isImageXObject(key)){
                        try {
                            PDImageXObject image = (PDImageXObject) resources.getXObject(key);

                            // 方式一：将PDF文档中的图片 分别存到一个空白PDF中。
                            PDPageContentStream contentStream = new PDPageContentStream(document_out,page1,AppendMode.APPEND,true);

                            float scale = 1f;
                            contentStream.drawImage(image, 20,20,image.getWidth()*scale,image.getHeight()*scale);
                            contentStream.close();
                            document_out.save("/Users/xiaolong/Downloads/123"+j+".pdf");

                            System.out.println(image.getSuffix() + ","+image.getHeight() +"," + image.getWidth());

                            /**
                            // 方式二：将PDF文档中的图片 分别另存为图片。
                            File file = new File("/Users/xiaolong/Downloads/123"+j+".png");
                            FileOutputStream out = new FileOutputStream(file);

                            InputStream input = image.createInputStream();                   

                            int byteCount = 0;
                            byte[] bytes = new byte[1024];

                            while ((byteCount = input.read(bytes)) > 0)
                            {
                                out.write(bytes,0,byteCount);
                            }

                            out.close();
                            input.close();
                            **/

                        } catch (IOException e) {
                            // TODO Auto-generated catch block
                            e.printStackTrace();
                        }
                        //image count
                        j++;
                    }
                }
            }
        } 

        System.out.println(j);
    }

3.4.2、过程说明

此方法可以取出源PDF中图片对象PDImageXObject，然后可以对该对象进行相关处理，本代码实现了将提取出来的每一个图片对象，插入到一个空白的PDF文档中。

有一点需要说明，以上代码注释部分本意是想直接生成图片文件，但尝试后发现文件异常。因此大家在这个代码基础上有新的想法可以继续尝试。

3.4.3、执行结果

源PDF文件中包含19张图片

分别生成19个仅包含单独图片的PDF

4、小结

本文仅介绍了利用Apache PDFbox相关开发包读取PDF文本，其他复杂功能暂未涉及，需要大家自己线下探索、尝试。

时间： 2024-08-07 16:21:50

Apache PDFbox开发指南之PDF文档读取的相关文章

Quartz 2D编程指南－ PDF文档的创建、显示及转换

PDF文档存储依赖于分辨率的向量图形.文本和位图,并用于程序的一系列指令中.一个PDF文档可以包含多页的图形和文本.PDF可用于创建跨平台.只读的文档,也可用于绘制依赖于分辨率的图形. Quartz为所有应用程序创建高保真的PDF文档,这些文档保留应用的绘制操作,如图13-1所示.PDF文档的结果将通过系统的其它部分或第三方法的产品来有针对性地进行优化.Quartz创建的PDF文档在Preview和Acrobat中都能正确的显示. Quartz不仅仅只使用PDF作为它的数字页,它

Java面试高频题精选300道，一份通往阿里的必备指南（pdf文档）

就目前大环境来看,跳槽成功的难度比往年高很多.一个明显的感受:今年的面试,无论一面还是二面,都很考验Java程序员的技术功底. 最近我整理了一份复习用的面试题及面试高频的考点题及技术点梳理成一份“Java工程师高频面试体系.pdf和一份网上搜集的“Java核心知识点体系文档.pdf”(实际上比预期多花了不少精力),包含集合,JVM,并发编程.Spring,MyBatis,微服务,Redis,Dubbo,设计模式,数据结构,分布式等!,由于篇幅有限,为了方便大家观看,这里以图片的形式给大家展示每部

java技术开发，将pdf文档转成图片，使用PDFRenderer-0.9.0架包

其实使用也不加简单,将架包导入,但是,我导入了架包后,有些使用的类方法没有,有导入了基础架包rt.jar 方法实现: public ldc_pdftojpg(String pdfpath, String jpgpath) throws IOException { File file = new File(pdfpath); RandomAccessFile raf = new RandomAccessFile(file, "r"); FileChannel channel = raf.

常用PDF文档开发库

C++库: 1,PDF类库 PoDoFo http://podofo.sourceforge.net/ PoDoFo 是一个用来操作 PDF 文件格式的 C++ 类库.它还包含一些小工具用来解析.修改和创建 PDF 文 2,Xpdf http://www.foolabs.com/xpdf/download.html Xpdf是一个开放源代码的PDF档案浏览器,Xpdf 可解码LZW压缩格式并阅读加密的PDF文件 3,PDF生成工具 Poppler http://poppler.free

【Win10 开发】读取PDF文档

关于用来读取PDF文档的内容的API,其实在Win8.1的时候就有,不过没关系,既咱们讨论的是10的UAP,连同8.1的内容也包括进去,所以老周无数次强调:把以前的内容学好了,就可以在不学习任何新知识的前提直接进入10的开发,至于你信不信,反正我信了. 好,P话不扯了,今天刚升级了Build 10061,VS创建UAP并运行是没什么问题的,不过XAML设计器貌似不太听话,比较淘气:还有个别API有问题,虽然异常报的是CLR损坏,但我们知道RT其实是基于COM的形式注册的,实际上是Win32的数据

一起学微软Power BI系列-官方文档-入门指南(7)发布与共享-终结篇+完整PDF文档

接触Power BI的时间也只有几个月,虽然花的时间不多,但通过各种渠道了解收集,谈不上精通,但对一些重要概念和细节还是有所了解.在整理官方文档的过程中,也熟悉和了解了很多概念.所以从前到后把微软官方的入门稳定粗略的介绍了一下.本篇文章也是这个小系列的终结篇.我将所有的章节整理为了一个完整的PDF文档分享给大家.其实了解之后发现文档还是有些简单的,过程其实没介绍到.因为微软也提供了支持文档,但限于篇幅太大,我就不打算按照原文一个个复制给大家了.入门文档是让大家有个粗略的了解.技术文档就是细节了,

关于前端开发的20篇文档与指南-转

关于前端开发的20篇文档与指南前端开发开发者CSSJavaScriptHTMLWeb 摘要:前端开发者中相信很多人会有两种感受:真的不知所措,这个行业到底有多少东西需要去学习:渴望更多,并迫不及待的为接下来的学习寻求一些思想方向.本文整理一些有用的信息,希望可以帮助相关领域的前端开发人员. 相信在2015年很多这个行业的人都会有这样的两种感受: 真的不知所措,这个行业到底有多少东西需要去学习: 渴望更多,并迫不及待的为接下来的学习寻求一些思想方向. 第一个来自于我们的个人感受,而第二个则是纯粹

java操作office和pdf文件java读取word，excel和pdf文档内容

在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应用.如果想深入了解原理.请读者自行研究一些相关源码. 首先我们来认识一下读取相关文档的jar包: 1. 引用POI包读取word文档内容 poi.jar 下载地址 http://apache.freelamp.com/poi/release/bin/poi-bin-3.6-20091214.zip

【使用Itext处理PDF文档（新建PDF文件、修改PDF文件、PDF中插入图片、将PDF文件转换为图片）】

iText简介 iText是著名的开放源码的站点sourceforge一个项目,是用于生成PDF文档的一个java类库.通过iText不仅可以生成PDF或rtf的文档,而且可以将XML.Html文件转化为PDF文件. iText的安装非常方便,下载iText.jar文件后,只需要在系统的CLASSPATH中加入iText.jar的路径,在程序中就可以使用iText类库了. 1.包的引用 1 import java.io.FileNotFoundException; 2 import java.i