POI实现word文档转html文件

POI word文件转html
package com.feiruo.officeConvert;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.util.List;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.transform.TransformerException;

import org.apache.poi.hwpf.usermodel.Picture;

public abstract class OfficeConvert {

        // 图片的存放地址
        private String imgPath = null;
        // 文件存放的地址
        private String parentPath = null;
        // 文件内容
        private String fileContent = null;
        private String encode = "UTF-8";

    /**
     * 将指定的doc文档进行格式转换
     *
     * @param docPath
     *            *.doc文档地址
     *
     * @throws FileNotFoundException
     * @throws IOException
     * @throws ParserConfigurationException
     * @throws TransformerException
     */
    public abstract void convert(String docPath) throws FileNotFoundException,
            IOException, ParserConfigurationException, TransformerException;

    /**
     * 将文件内容写入到磁盘
     *
     * @param filepath
     *            保存转换文件的地址
     */
    public void writeFile(String filepath) {
        FileOutputStream fos = null;
        BufferedWriter bw = null;
        File f=new File(this.parentPath);

        if(!f.exists()){
            f.mkdirs();
        }
        try {
            File file = new File(filepath);
            fos = new FileOutputStream(file);
            bw = new BufferedWriter(new OutputStreamWriter(fos, encode));
            bw.write(fileContent);
        } catch (FileNotFoundException fnfe) {
            fnfe.printStackTrace();
        } catch (IOException ioe) {
            ioe.printStackTrace();
        } finally {
            try {
                if (bw != null)
                    bw.close();
                if (fos != null)
                    fos.close();
            } catch (IOException ie) {
            }
        }
    }
    public String checkSetPath(String path){
        path=path.trim();
        if(path.lastIndexOf("/")<path.length()-1) path+="/";
        if(path.indexOf("\"")>0)path=path.replaceAll("\"", "");
        if(path.indexOf(">")>0)path=path.replaceAll(">", "&gt;");
        if(path.indexOf("<")>0)path=path.replaceAll("<", "&lt;");
        //TODO if(path.indexOf("*")>0)path=path.replaceAll("/*", "");
        return path;
    }
    public String getEncode() {
        return encode;
    }

    public void setEncode(String encode) {
        this.encode = encode;
    }

    /**
     * 获取图片存放地址
     *
     * @return <strong>java.lang.String</strong>
     */
    public String getImgPath() {
        return imgPath;
    }

    /**
     * 设置图片的存放地址文件夹路径
     *
     * @param imgPath
     *            设置图片的存放文件夹名称
     */
    public void setImgPath(String imgPath) {
        this.imgPath = checkSetPath(imgPath);
    }

    /**
     * 获取存放文件的目录地址
     *
     * @return <strong>java.lang.String</strong>
     */
    public String getParentPath() {
        return parentPath;
    }

    /**
     * 设置文件存放的路径
     *
     * @param parentPath
     *            文件地址
     */
    public void setParentPath(String parentPath) {
        this.parentPath = checkSetPath(parentPath);
    }

    /**
     * 获取文件内容
     *
     * @return <strong>java.lang.String</strong>
     */
    public String getFileContent() {
        return fileContent;
    }
    public void setFileContent(String content){
        this.fileContent=content;
    }
}
package com.feiruo.officeConvert;

import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.util.List;

import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.transform.OutputKeys;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerException;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;

import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.converter.PicturesManager;
import org.apache.poi.hwpf.converter.WordToHtmlConverter;
import org.apache.poi.hwpf.usermodel.Picture;
import org.apache.poi.hwpf.usermodel.PictureType;
import org.w3c.dom.Document;

/**
 * 将*.doc文档转换为*.html文件格式
 *
 * @author Jdk.feiruo.
 * @since JDK 1.7 POI 3.8
 * @version 1.0
 */
public class DocToHtml extends OfficeConvert implements IOfficeConvert {
    private List<Picture> pics = null;

    /**
     * @param parentPath
     *            html文件存放地址
     * @param imageppth
     *            html图片存放地址
     * @param encoding
     *            设置html的编码格式
     */
    public DocToHtml(String parentPath, String imageppth, String encoding) {
        setParentPath(checkSetPath(parentPath));
        setImgPath(checkSetPath(imageppth));
        this.setEncode(encoding);
    }

    public DocToHtml() {

    }

    /**
     * 将*doc文档转为*html文件
     *
     * @param docPath
     *            *doc文档的所在地址
     *
     * @throws FileNotFoundException
     * @throws IOException
     * @throws ParserConfigurationException
     * @throws TransformerException
     */
    public void convert(String docPath) throws FileNotFoundException,
            IOException, ParserConfigurationException, TransformerException {
        HWPFDocument wordDocument = new HWPFDocument(new FileInputStream(
                docPath));
        WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
                DocumentBuilderFactory.newInstance().newDocumentBuilder()
                        .newDocument());
        wordToHtmlConverter.setPicturesManager(new PicturesManager() {
            public String savePicture(byte[] content, PictureType pictureType,
                    String suggestedName, float widthInches, float heightInches) {
                return suggestedName;
            }
        });
        wordToHtmlConverter.processDocument(wordDocument);
        pics = wordDocument.getPicturesTable().getAllPictures();

        Document htmlDocument = wordToHtmlConverter.getDocument();
        ByteArrayOutputStream out = new ByteArrayOutputStream();
        DOMSource domSource = new DOMSource(htmlDocument);
        StreamResult streamResult = new StreamResult(out);
        TransformerFactory tf = TransformerFactory.newInstance();
        Transformer serializer = tf.newTransformer();

        serializer.setOutputProperty(OutputKeys.ENCODING, this.getEncode());
        serializer.setOutputProperty(OutputKeys.INDENT, "yes");
        serializer.setOutputProperty(OutputKeys.METHOD, "html");
        serializer.transform(domSource, streamResult);

        out.close();

        String htmlContent = new String(out.toByteArray());
        if(htmlContent.indexOf("<img src=\"") > 0){
            htmlContent=htmlContent.replaceAll("<img src=\"", "<img src=\"" + getImgPath());
        }
        setFileContent(htmlContent);
    }

    @Override
    public void writeWithName(String fileName) {
        // 先保存文档中的图片
        if (pics != null) {
            File imgfile = new File(this.getParentPath() + this.getImgPath());
            // 如果当前文件夹不存在,则创建新文件夹
            if (!imgfile.exists())
                imgfile.mkdirs();
            for (int i = 0; i < pics.size(); i++) {
                Picture pic = (Picture) pics.get(i);
                try {
                    pic.writeImageContent(new FileOutputStream(imgfile + "//"
                            + pic.suggestFullFileName()));
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        // 保存html源码文件
        this.writeFile(getParentPath()+fileName+".html");
    }
}
package com.feiruo.Test;

import java.io.FileNotFoundException;
import java.io.IOException;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.transform.TransformerException;

import com.yinhai.officeConvert.DocToHtml;

public class Test{
    public static void main(String[] args) {
        Test t=new Test();
    }
      public Test(){
          DocToHtml dth=new DocToHtml("C://test", "f", "UTF-8");
          try {
            dth.convert("D://test//test.doc");
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } catch (ParserConfigurationException e) {
            e.printStackTrace();
        } catch (TransformerException e) {
            e.printStackTrace();
        }
          dth.writeWithName("feiruo");
      }
}
package com.feiruo.officeConvert;

public interface IOfficeConvert {
    /**
     * 将文件写入到磁盘
     * @param fileName 要写入文件的名称
     */
    public void writeWithName(String fileName);
}
时间: 2024-12-30 13:32:16

POI实现word文档转html文件的相关文章

允许嵌入到PDF,Word文档和其他文件的条形码控件UPC/EAN Barcode Font Advantage Package

IDAutomation的UPC/EAN Barcode Font Advantage Package是一个先进的字体产品,它所用的工具,宏和源代码可以使用一个单一的字体文件来创建UCC-12, UPCA, UPCE, EAN8, EAN13, JAN, ISBN 和Bookland条形码.该字体满足ANSI, ISO和IEC 2000规格说明要求(ISO 15420:2000). 具体功能: 为了创建合适的UPC和EAN条形码类型,打印的字符必须要从UPC/EAN条形码字体数据表上定义的表格上

Poi之Word文档结构介绍

1.poi之word文档结构介绍之正文段落 一个文档包含多个段落,一个段落包含多个Runs,一个Runs包含多个Run,Run是文档的最小单元 获取所有段落:List<XWPFParagraph> paragraphs = word.getParagraphs(); 获取一个段落中的所有Runs:List<XWPFRun> xwpfRuns = xwpfParagraph.getRuns(); 获取一个Runs中的一个Run:XWPFRun run = xwpfRuns.get(i

java word文档 转 html文件

一.简介 一般word文件后缀有doc.docx两种.docx是office word 2007以及以后版本文档的扩展名:doc是office word 2003文档保存的扩展名.对于这两种格式的word转换成html需要使用不同的方法.对于docx格式的文档使用xdocreport进行转换.依赖如下: <dependency> <groupId>fr.opensagres.xdocreport</groupId> <artifactId>fr.opensa

poi 读取word文档

1.导入jar包 官网下载地址: https://www.apache.org/dyn/closer.lua/poi/release/bin/poi-bin-3.17-20170915.zip 最开始的时候没有导入xmlbeans包,运行的时候报了个异常,然后学乖了 2.对象的说明 2.1关于word有两个对象;XWPFDocument和HWPFDocument分别对应word2007以上和word2003具体的说明见下面这段话: 来自某位大牛的博客,链接找不到了 2.2 3.读取 3.1 XW

批量转换word文档到pdf文件

最近在整理每周的工作记录.因为每周的工作记录大都是单独的word文件,有时候忘记了也不容易找出来,一个个打开查找太费劲,因此想着把这些文件通过word2016的另存为功能转换为pdf,然后永Acrobat合并起来. 思路如下: (1)通过Python代码搜索指定输入目录下的所有word文档,调用word COM接口,将文件转存为pdf文件到指定输出目录: (2)利用Acrobat将输出的目录中所有的pdf合并成单个pdf文件供存档查阅. 步骤(1)的代码如下: 1 import os 2 #im

如何在PowerDesigner将PDM导出生成WORD文档或者html文件

a)         使用PowerDesigner打开pdm文件 b)         点击Report Temlates 制作模板 点击PowerDesigner菜单栏“Report” -> “Report Templates” c)         选择模板数据项 完成步骤a),得到如下界面,左右2个区,Aavailable区域中选择你想要在WORD文档中展示的数据项,这里我们选择List of Tables,和List of Table Columns[数据表格信息] d)       

使用poi读取word文档

看了很多资料,就一点一点总结吧. word2003和word2007以及以上的后缀名都不一样,一个是doc一个是docx,所以在解析的时候也不一样,而这边主要是使用poi.但是看了很多资料都没有找到所谓的3.8的版本,在官网上只能找到3.11版本(或是是个人的英语水平不行吧) 这个小dome主要就是一个简单的读取word文档,复杂的继续研究: public class ReadWord {    public static void main(String[] args) {        tr

poi操作word文档文件操作

import org.apache.poi.POITextExtractor; import org.apache.poi.hwpf.extractor.WordExtractor; //得到.doc文件提取器 org.apache.poi.hwpf.extractor.WordExtractor doc = new WordExtractor(new FileInputStream(filePath)); //提取.doc正文文本 String text = doc.getText(); //

Java 使用 jacob 将 word 文档转换为 pdf 文件

网上查询了许许多多的博客,说利用 poi.iText.Jsoup.jdoctopdf.使用 jodconverter 来调用 openOffice 的服务来转换等等,我尝试了很多种,但要么显示不完全,要么可是可能有问题,使用这个 jacob 的方法我最开始是最不想用的,因为它要导入 dll 文件,但最后我还是选择了使用该方法,原因是感觉转换后的 pdf 文件简直就是完美. jacob 缺点:需要 window 环境,而且速度是最慢的需要安装 msofficeWord 以及 SaveAsPDFan