java读取pdf文档

import java.io.*;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;

public class PDFReader {
 
 public static String file_path = "F:/pdf/网易技术部的MySQL中文资料.pdf";
 // 获取PDF内纯文本信息
 public String GetTextFromPdf(String filename) throws Exception
 {
  FileInputStream instream = new FileInputStream(filename);    // 根据指定文件创建输入流
  PDFParser parser = new PDFParser( instream );                // 创建PDF解析器
  parser.parse();                                              // 执行PDF解析过程
  
  PDDocument pdfdocument = parser.getPDDocument();             // 获取解析器的PDF文档对象
  PDFTextStripper pdfstripper = new PDFTextStripper();         // 生成PDF文档内容剥离器
  String contenttxt = pdfstripper.getText(pdfdocument);        // 利用剥离器获取文档
  
  System.out.println("文件长度 : "+ contenttxt.length() +"\n");
  return contenttxt;http://www.huiyi8.com/jiangbei/sheji/?
  
 }
 
 public static void main(String args[])
 {奖杯设计图
  PDFReader pdfbox=new PDFReader();                        // 生成PDFBoxHello对象
  try{
                                                            // 获取文档纯文本内容
   String doctext = pdfbox.GetTextFromPdf(file_path);
   System.out.println("文件内容 : ");   
   System.out.println(doctext);
   System.out.println("文件结束 . ");   
  } catch(Exception e){
   e.printStackTrace();
  }
 }
}
?

1. [图片] pdf.png

时间: 2024-10-11 18:06:27

java读取pdf文档的相关文章

java导出pdf文档

java导出pdf文档,多是iText实现的,可以创建pdf文档,并向文档写入内容. 1 导入包:itext-2.0.6.jar       itext必须使用的包. iTextAsian.jar      向pdf写入中文必须的包. 2 代码: package com.exp.pdf; import java.awt.Color; import java.io.FileOutputStream; import com.lowagie.text.Document; import com.lowa

【Win10 开发】读取PDF文档

关于用来读取PDF文档的内容的API,其实在Win8.1的时候就有,不过没关系,既咱们讨论的是10的UAP,连同8.1的内容也包括进去,所以老周无数次强调:把以前的内容学好了,就可以在不学习任何新知识的前提直接进入10的开发,至于你信不信,反正我信了. 好,P话不扯了,今天刚升级了Build 10061,VS创建UAP并运行是没什么问题的,不过XAML设计器貌似不太听话,比较淘气:还有个别API有问题,虽然异常报的是CLR损坏,但我们知道RT其实是基于COM的形式注册的,实际上是Win32的数据

使用iTextSharp读取PDF文档

网上有很多获取pdf页数方法有读流判断type/page的但是经过实际测试文件太大的时候往往不是很准确,既然这样我们就不用费心去自己写了可以用itextsharp. 这里是下载地址:http://sourceforge.net/projects/itextsharp/files/ (1)创建一个Windows控制台应用程序,命名为ReadPdfDemo.(2)添加对iTextSharp的引用.(3)在“Program.cs”文件中添加如下引用.using System;using System.

Java读取word文档解决方案

java读取word文档时,虽然网上介绍了很多插件poi.java2Word.jacob.itext等等,poi无法读取格式(新的API估计行好像还在处于研发阶段,不太稳定,做项目不太敢用):java2Word.jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过,操作方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄:itxt好像写很方便但是我查了好久资料没有见到过关于读的好办法.经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,

C# 创建、读取PDF文档

生成PDF文档我们通常可以通过文档转换的形式来得到想要的PDF,但我们也可以通过最直接的方式来创建PDF文档,由此本篇文章将介绍C#如何来创建带图.文元素的PDF文档.同理,对于需要读取PDF文档的情况,我们也可以分情况来读取想要的文档元素(文本.图片).在下面的示例中将做详细介绍. 示例要点梳理: 一.创建PDF文档(可支持中文)1.写入文本(包括页边距.字体.字号等设置)2.绘入图片二.读取PDF文档1.读取文本1.1读取全部文本1.2读取指定区域文本2.读取图片使用工具:Free Spir

Java生成PDF文档(表格、列表、添加图片等)

需要的两个包及下载地址: (1)iText.jar:http://download.csdn.net/source/296416 (2)iTextAsian.jar(用来进行中文的转换):http://download.csdn.net/source/172399 代码如下: 1 import java.awt.Color; 2 import java.io.FileOutputStream; 3 import com.lowagie.text.Cell; 4 import com.lowagi

Java操作PDF文档

1.文档内容的基本格式设置 示例代码: public class Pdf05C { public static void main(String[] args) { Document document = new Document(); try { PdfWriter.getInstance(document, new FileOutputStream("C:\\005.pdf")); document.open(); BaseFont font = BaseFont.createFo

[开源框架推荐]Icepdf:纯java的pdf文档的提取和转换库

ICEpdf 是一个轻量级的开源 Java 语言的 PDF 类库.通过 ICEpdf 可以用来浏览.内容提取和转换 PDF 文档,而无须一些本地PDF库的支持. 可以用来做什么? 1.从pdf文件中提取所有的文字或信息,比如给pdf文档做摘要 2.把pdf转换成图片,这个功能非常的棒,比如给pdf文件做缩略图或者直接做一个纯js的pdf阅读器. 3.pdf文档的分页打印和信息搜索. 4.pdf中添加.修改或删除批注信息. 在pdf到图片转换方面,最好的开源产品. 官方地址:http://www.

Python读取PDF文档

1 from pdfminer.converter import PDFPageAggregator 2 from pdfminer.layout import LAParams 3 from pdfminer.pdfparser import PDFParser 4 from pdfminer.pdfparser import PDFDocument 5 from pdfminer.pdfinterp import PDFResourceManager 6 from pdfminer.pdfi