java读word文件

Java POI 读取word文件

Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能。

1.读取word 2003及word 2007需要的jar包

  读取 2003 版本(.doc)的word文件相对来说比较简单,只需要 poi-3.5-beta6-20090622.jar 和 poi-scratchpad-3.5-beta6-20090622.jar 两个 jar 包即可, 而 2007 版本(.docx)就麻烦多,我说的这个麻烦不是我们写代码的时候麻烦,是要导入的 jar 包比较的多,有如下 7 个之多:  1. openxml4j-bin-beta.jar  2. poi-3.5-beta6-20090622.jar  3. poi-ooxml-3.5-beta6-20090622.jar  4 .dom4j-1.6.1.jar  5. geronimo-stax-api_1.0_spec-1.0.jar  6. ooxml-schemas-1.0.jar  7. xmlbeans-2.3.0.jar 其中 4-7 是 poi-ooxml-3.5-beta6-20090622.jar 所依赖的 jar 包(在 poi-bin-3.5-beta6-20090622.tar.gz 中的 ooxml-lib 目录下可以找到)。

2.换行符号

  硬换行:文件中换行,如果是键盘中使用了"enter"的换行。

  软换行:文件中一行的字符数容量有限,当字符数量超过一定值时,会自动切到下行显示

  对程序来说,硬换行才是可以识别的、确定的换行,软换行与字体大小、缩进有关。

3.读取的注意事项

  值得注意的是: POI 在读取不会读取 word 文件中的图片信息; 还有就是对于 2007 版的 word(.docx), 如果 word 文件中有表格,所有表格中的数据都会在读取出来的字符串的最后。

4.读取word文本内容代码

 1 import java.io.File;
 2 import java.io.FileInputStream;
 3 import java.io.InputStream;
 4
 5 import org.apache.poi.POIXMLDocument;
 6 import org.apache.poi.POIXMLTextExtractor;
 7 import org.apache.poi.hwpf.extractor.WordExtractor;
 8 import org.apache.poi.openxml4j.opc.OPCPackage;
 9 import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
10
11 public class Test {
12     public static void main(String[] args) {
13         try {
14             InputStream is = new FileInputStream(new File("2003.doc"));
15             WordExtractor ex = new WordExtractor(is);
16             String text2003 = ex.getText();
17             System.out.println(text2003);
18
19             OPCPackage opcPackage = POIXMLDocument.openPackage("2007.docx");
20             POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
21             String text2007 = extractor.getText();
22             System.out.println(text2007);
23
24         } catch (Exception e) {
25             e.printStackTrace();
26         }
27     }
28 }
时间: 2024-10-14 09:15:09

java读word文件的相关文章

Java读取word文件的程序演示

完成对office文件的操作可以借助apache.poi包(我用的poi-3.10-FINAL),导入相应的jar包(最好全部导入) 下面的程序演示了一些操作word的过程,详细的函数功能可以查看此包的官方API import java.io.*; import org.apache.poi.POIXMLDocument; import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.extractor.*; import

Java读properties文件中文乱码问题的解决方法

java读properties文件,包含中文字符的主要有两种: 1.key中包含中文字符的(value中也有可能包含) 2.key中不包含中文字符的(value中有可能包含) 1.key中包含中文字符 可以使用java自带工具native2ascii.exe(Java\jdk1.x.x\bin\native2ascii.exe),转换文件编码格式 示例: native2ascii -encoding 8859_1 c:\a.properties c:\b.properties 即将 c:\a.p

Java读取word文件,字体,颜色

在Android读取Word文件时,在网上查看时可以用tm-extractors,但好像没有提到怎么读取Word文档中字体的颜色,字体,上下标等相关的属性.但由于需要,要把doc文档中的内容(字体,下划线,颜色等)读取应用到android中(不包括图片和图表). 后面采用的是poi三方jar包(原包太大,可以从源代码里自己抽取有用的一些代码减少包的大小). 我的想法是:把doc中的内容解析出来后,加上html对应的标签,在android中通过Html.fromHtml在TextView中进行显示

Java读写Word文件常用技术

Java操作操作Word文件,最近花了几天时间解决使用Word模板导出数据的问题,收集到一些资料分享下. 常见的技术如下: 1.POI(兼容doc.docx文件) 官方网站:http://poi.apache.org/ 网上例子很多,由于发布时间较早,很多外国网站的例子,建议Google搜索 书签替换:http://apache-poi.1045710.n5.nabble.com/Replacing-the-value-of-the-bookmarks-td5710052.html docx文件

java读/写文件

读取文件参考:https://blog.csdn.net/weixin_42129373/article/details/82154471 写入文件参考:https://blog.csdn.net/BanketBoy/article/details/86504704 https://www.cnblogs.com/chenpi/p/5498731.html 1 package text; 2 3 import java.io.BufferedReader; 4 import java.io.Bu

java读XML文件

XML文件设计为传输和存储数据,其焦点为数据内容. HTML设计为用来显示数据, 其焦点为数据外观. XML仅仅是文本文件,任何文本编辑器一般情况下都能对其进行编辑. XML没有预定义的标签,并且设定的标签是大小写敏感的. 标签还必须: 必须有根元素 属性值需要加引号 空格等会被保留 必须关闭标签 JAVA读取XML文件 1,language.xml文件内容为: <?xml version="1.0" encoding = "UTF-8" ?> <

Java转换Word文件到PDF文件

使用Docx4j将Word文件转换为PDF文件: public static void convertDocxToPDF(String docxFilePath, String pdfPath) throws Exception { OutputStream os = null; try { // 加载文件 File docx = new File(docxFilePath); InputStream is = new FileInputStream(docx); WordprocessingM

java将word文件转为pdf

import java.io.File; import com.jacob.activeX.ActiveXComponent;import com.jacob.com.Dispatch; public class Word2Pdf{ public static void main(String args[]) { ActiveXComponent app = null; String wordFile = "C:/xxxxx.doc"; String pdfFile = "C

用java操作XML文件(DOM解析方式)

XML 可扩展标记语言(Extensible Markup Language),是独立于软件和硬件的传输工具. XML的作用: (1)用作配置文件 (2)简化数据共享 (3)简化数据传输 XML DOM解析方式 在java工程中导入dom4j.jar包. (一)用java读XML文件 <1>创建SAXReader对象. RAXReader reader=new RAXReader(); <2>调用RAXReader的Document read(File file)方法,获取xml文