使用POI读写word doc文件

Apache poi的hwpf模块是专门用来对word doc文件进行读写操作的。在hwpf里面我们使用HWPFDocument来表示一个word doc文档。在HWPFDocument里面有这么几个概念:

l  Range:它表示一个范围,这个范围可以是整个文档,也可以是里面的某一小节(Section),也可以是某一个段落(Paragraph),还可以是拥有共同属性的一段文本(CharacterRun) 。

l  Section:word文档的一个小节,一个word文档可以由多个小节构成。

l  Paragraph:word文档的一个段落,一个小节可以由多个段落构成。

l  CharacterRun:具有相同属性的一段文本,一个段落可以由多个CharacterRun组成。

l  Table:一个表格。

l  TableRow:表格对应的行。

l  TableCell:表格对应的单元格。

Section、Paragraph、CharacterRun和Table都继承自Range。

1       读word doc文件

在日常应用中,我们从word文件里面读取信息的情况非常少见,更多的还是把内容写入到word文件中。使用POI从word doc文件读取数据时主要有两种方式:通过WordExtractor读和通过HWPFDocument读。在WordExtractor内部进行信息读取时还是通过HWPFDocument来获取的。

1.1     通过WordExtractor读文件

在使用WordExtractor读文件时我们只能读到文件的文本内容和基于文档的一些属性,至于文档内容的属性等是无法读到的。如果要读到文档内容的属性则需要使用HWPFDocument来读取了。下面是使用WordExtractor读取文件的一个示例:

 View
Code

1.2     通过HWPFDocument读文件

HWPFDocument是当前Word文档的代表,它的功能比WordExtractor要强。通过它我们可以读取文档中的表格、列表等,还可以对文档的内容进行新增、修改和删除操作。只是在进行完这些新增、修改和删除后相关信息是保存在HWPFDocument中的,也就是说我们改变的是HWPFDocument,而不是磁盘上的文件。如果要使这些修改生效的话,我们可以调用HWPFDocument的write方法把修改后的HWPFDocument输出到指定的输出流中。这可以是原文件的输出流,也可以是新文件的输出流(相当于另存为)或其它输出流。下面是一个通过HWPFDocument读文件的示例:

 View
Code

2       写word doc文件

在使用POI写word doc文件的时候我们必须要先有一个doc文件才行,因为我们在写doc文件的时候是通过HWPFDocument来写的,而HWPFDocument是要依附于一个doc文件的。所以通常的做法是我们先在硬盘上准备好一个内容空白的doc文件,然后建立一个基于该空白文件的HWPFDocument。之后我们就可以往HWPFDocument里面新增内容了,然后再把它写入到另外一个doc文件中,这样就相当于我们使用POI生成了word doc文件。

在实际应用中,我们在生成word文件的时候都是生成某一类文件,该类文件的格式是固定的,只是某些字段不一样罢了。所以在实际应用中,我们大可不必将整个word文件的内容都通过HWPFDocument生成。而是先在磁盘上新建一个word文档,其内容就是我们需要生成的word文件的内容,然后把里面一些属于变量的内容使用类似于“${paramName}”这样的方式代替。这样我们在基于某些信息生成word文件的时候,只需要获取基于该word文件的HWPFDocument,然后调用Range的replaceText()方法把对应的变量替换为对应的值即可,之后再把当前的HWPFDocument写入到新的输出流中。这种方式在实际应用中用的比较多,因为它不但可以减少我们的工作量,还可以让文本的格式更加的清晰。下面我们就来基于这种方式做一个示例。

假设我们现在拥有一些变动的信息,然后需要通过这些信息生成如下格式的word doc文件:

那么根据上面的描述,首先第一步,我们建立一个对应格式的doc文件作为模板,其内容是这样的:

有了这样一个模板之后,我们就可以建立对应的HWPFDocument,然后替换对应的变量为相应的值,再把HWPFDocument输出到对应的输出流即可。下面是对应的代码  下载地址  。

 1 public class HwpfTest {
 2
 3    @Test
 4    public void testWrite() throws Exception {
 5       String templatePath = "D:\\word\\template.doc";
 6       InputStream is = new FileInputStream(templatePath);
 7       HWPFDocument doc = new HWPFDocument(is);
 8       Range range = doc.getRange();
 9       //把range范围内的${reportDate}替换为当前的日期
10       range.replaceText("${reportDate}", new SimpleDateFormat("yyyy-MM-dd").format(new Date()));
11       range.replaceText("${appleAmt}", "100.00");
12       range.replaceText("${bananaAmt}", "200.00");
13       range.replaceText("${totalAmt}", "300.00");
14       OutputStream os = new FileOutputStream("D:\\word\\write.doc");
15       //把doc输出到输出流中
16       doc.write(os);
17       this.closeStream(os);
18       this.closeStream(is);
19    }
20
21    /**
22     * 关闭输入流
23     * @param is
24     */
25    private void closeStream(InputStream is) {
26       if (is != null) {
27          try {
28             is.close();
29          } catch (IOException e) {
30             e.printStackTrace();
31          }
32       }
33    }
34
35    /**
36     * 关闭输出流
37     * @param os
38     */
39    private void closeStream(OutputStream os) {
40       if (os != null) {
41          try {
42             os.close();
43          } catch (IOException e) {
44             e.printStackTrace();
45          }
46       }
47    }
48
49
50 }

时间: 2024-10-08 11:05:13

使用POI读写word doc文件的相关文章

android使用POI读写word doc文件

目录 1     读word doc文件 1.1     通过WordExtractor读文件 1.2     通过HWPFDocument读文件 2     写word doc文件 Apache poi的hwpf模块是专门用来对word doc文件进行读写操作的.在hwpf里面我们使用HWPFDocument来表示一个word doc文档.在HWPFDocument里面有这么几个概念: l  Range:它表示一个范围,这个范围可以是整个文档,也可以是里面的某一小节(Section),也可以是

POI读写Word docx文件

使用POI读写word docx文件 目录 1     读docx文件 1.1     通过XWPFWordExtractor读 1.2     通过XWPFDocument读 2     写docx文件 2.1     直接通过XWPFDocument生成 2.2     以docx文件作为模板 POI在读写word docx文件时是通过xwpf模块来进行的,其核心是XWPFDocument.一个XWPFDocument代表一个docx文档,其可以用来读docx文档,也可以用来写docx文档.

解决 apache poi 转换 word(docx) 文件到 html 文件表格没边框的问题

一.起因 这几天在做电子签章问题,要通过替换docx文件中的占位符生成包含业务数据的合同数据,再转换成html文件,转换成pdf文件.遇到的问题是:通过apache poi转换docx到html时,原生的表格文件可以正常显示,但是我通过代码生成的表格只有数据,而不展示边框. 二.问题分析 google了一下发现有人碰到过类似问题,但是没有找到解决方法.现成的没有只能自己研究. 贴上简单的填充表格内容的java代码 1 private void replaceTable(XWPFDocument

poi操作word文档文件操作

import org.apache.poi.POITextExtractor; import org.apache.poi.hwpf.extractor.WordExtractor; //得到.doc文件提取器 org.apache.poi.hwpf.extractor.WordExtractor doc = new WordExtractor(new FileInputStream(filePath)); //提取.doc正文文本 String text = doc.getText(); //

使用POI将doc文件转换为html

需要的jar包有:有一些是依赖包,可以使用maven下载 doc文件转换为html文件 package com.gsww.sxzz.controller.service; import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.converter.PicturesManager; import org.apache.poi.hwpf.converter.WordToHtmlConverter; import org.

Java读写Word文件常用技术

Java操作操作Word文件,最近花了几天时间解决使用Word模板导出数据的问题,收集到一些资料分享下. 常见的技术如下: 1.POI(兼容doc.docx文件) 官方网站:http://poi.apache.org/ 网上例子很多,由于发布时间较早,很多外国网站的例子,建议Google搜索 书签替换:http://apache-poi.1045710.n5.nabble.com/Replacing-the-value-of-the-bookmarks-td5710052.html docx文件

poi导出word模板项目实例(一个文件)

在页面上填写值,然后导出到word模板中,并把页面上的值带到模板中,也就是导出word文档,提前有word 的模板形式, 1.jsp 页面   <table class="formTable"> <TR> <TD class="label">会议地点</TD> <TD class="content"> <INPUT id="meetingSite" type=&

通过POI读取word文件

POI读取word只能读取内容不能读取格式 tm-extractors-0.4.jar import java.io.FileInputStream; import org.textmining.text.extraction.WordExtractor; public class Test { public static void main(String[] args) { try { FileInputStream in = new FileInputStream("d:\\a.doc&qu

使用word的xml模板生成.doc文件

一.编辑模板 替换地方以变量标记如"案件编号"可写成{caseNo} template.xml 二.准备数据 以HashMap封装数据,原理是替换模板中的变量 三.替换操作 选择输出位置:writePath WordUtil.printWordbyXMLWithOutputPath(templateFile, writePath, filename, dataMap); /** * 打印word文档(传入参数需要传入输出文件的保存路径的) * @param templateFile *