Java读取word文件,字体,颜色

在Android读取Word文件时,在网上查看时可以用tm-extractors,但好像没有提到怎么读取Word文档中字体的颜色,字体,上下标等相关的属性。但由于需要,要把doc文档中的内容(字体,下划线,颜色等)读取应用到android中(不包括图片和图表)。

后面采用的是poi三方jar包(原包太大,可以从源代码里自己抽取有用的一些代码减少包的大小)。

我的想法是:把doc中的内容解析出来后,加上html对应的标签,在android中通过Html.fromHtml在TextView中进行显示,或者通过WebView.loadData进行加载显示

但测试后,发现如果加载太多内容的话,在Android中效率不行。

效果(该图的效果是在TextView中的效果,在WebView中效果会更好些):

doc图:

android图:

做法1:(解析为span样式的,这种做法只能用WebView方式加载,Html.fromHtml无效)

Java代码  

  1. /**Span样式
  2. * 通过字体的样式进行加载
  3. * @param inputStream
  4. * @return
  5. */
  6. public static String readDocToSpanByRun(InputStream inputStream) {
  7. HWPFDocument hwpfDocument = null;
  8. if(inputStream == null)
  9. throw new RuntimeException("inputStream is null ...");
  10. try{
  11. hwpfDocument = new HWPFDocument(inputStream);
  12. }catch(Exception e) {
  13. throw new RuntimeException("HWPFDocment Exception", e);
  14. }
  15. Range allRange = hwpfDocument.getRange();
  16. int length = allRange.numCharacterRuns();
  17. StringBuffer sb = new StringBuffer();
  18. CharacterRun cur;
  19. String text = "";
  20. for (int i = 0; i < length; i++) {
  21. cur = allRange.getCharacterRun(i);
  22. sb.append(CharacterRunUtils.toSpanType(cur));
  23. text = CharacterRunUtils.getSpicalSysbomByRun(cur.text());
  24. if(cur.getSubSuperScriptIndex() == 1)
  25. sb.append("<sup>").append(text).append("</sup>");
  26. else if(cur.getSubSuperScriptIndex() == 2)
  27. sb.append("<sub>").append(text).append("</sub>");
  28. else
  29. sb.append(text);
  30. sb.append("</span>");
  31. }
  32. return sb.toString();
  33. }

做法2:(解析为font样式的,Html.fromHtml有效,但对应size的设置无效果)

Java代码  

  1. /**
  2. * Html样式
  3. * 通过字体样式解析
  4. * @param inputStream
  5. * @return
  6. */
  7. public static String readDocToHtml(InputStream inputStream) {
  8. HWPFDocument hwpfDocument = null;
  9. if(inputStream == null)
  10. throw new RuntimeException("inputStream is null ...");
  11. try{
  12. hwpfDocument = new HWPFDocument(inputStream);
  13. }catch(Exception e) {
  14. throw new RuntimeException("HWPFDocment Exception", e);
  15. }
  16. CharacterRun  cur = null;
  17. StringBuffer sb = new StringBuffer();
  18. StringBuffer charStr =  new StringBuffer();
  19. Range allRange = hwpfDocument.getRange();
  20. for(int i = 0; i < allRange.numCharacterRuns(); i++) {
  21. cur = allRange.getCharacterRun(i);
  22. sb.append(CharacterRunUtils.fontFaceColorSizeToHtml(cur));
  23. charStr.append(CharacterRunUtils.toSupOrSub(cur, CharacterRunUtils.getSpicalSysbomByRun(cur.text())));
  24. if(cur.isBold())  {
  25. charStr.insert(0, "<b>");
  26. charStr.insert(charStr.length(), "</b>");
  27. }
  28. if(cur.getUnderlineCode() != 0) {
  29. charStr.insert(0, "<u>");
  30. charStr.insert(charStr.length(), "</u>");
  31. }
  32. if(cur.isItalic()) {
  33. charStr.insert(0, "<i>");
  34. charStr.insert(charStr.length(), "</i>");
  35. }
  36. if(cur.isStrikeThrough()) {
  37. charStr.insert(0, "<s>");
  38. charStr.insert(charStr.length(), "</s>");
  39. }
  40. sb.append(charStr).append("</font>");
  41. charStr.setLength(0);
  42. }
  43. hwpfDocument = null;
  44. return sb.toString();
  45. }

 以下是会用到的方法:

Java代码  

  1. /**
  2. *处理字体相关的属性
  3. */
  4. public class CharacterRunUtils {
  5. private static final short ENTER_ASCII = 13;
  6. private static final short SPACE_ASCII = 32;
  7. private static final short TABULATION_ASCII = 9;
  8. /**
  9. * 比对字体是否相同
  10. * 可以继续加其它属性
  11. * @param cr1
  12. * @param cr2
  13. * @return
  14. */
  15. public static boolean compareCharStyleForSpan(CharacterRun cr1,
  16. CharacterRun cr2) {
  17. return cr1.isBold() == cr2.isBold()
  18. && cr1.getFontName().equals(cr2.getFontName())
  19. && cr1.getFontSize() == cr2.getFontSize()
  20. && cr1.isItalic() == cr2.isItalic()
  21. && cr1.getColor() == cr2.getColor()
  22. && cr1.getUnderlineCode() == cr2.getUnderlineCode()
  23. && cr1.isStrikeThrough() == cr2.isStrikeThrough()
  24. && cr1.getColor() == cr2.getColor();
  25. }
  26. public static boolean compareCharColor(CharacterRun cr1, CharacterRun cr2) {
  27. return cr1.getFontName().equals(cr2.getFontName())
  28. && cr1.getFontSize() == cr2.getFontSize()
  29. && cr1.getColor() == cr2.getColor();
  30. }
  31. public static String getSpicalSysbom(char currentChar) {
  32. String tempStr = "";
  33. if (currentChar == ENTER_ASCII) {
  34. tempStr += "<br/>";
  35. } else if (currentChar == SPACE_ASCII) {
  36. tempStr += "&nbsp;";
  37. } else if (currentChar == TABULATION_ASCII) {
  38. tempStr += "&nbsp;&nbsp;&nbsp;";
  39. } else {
  40. tempStr += currentChar;
  41. }
  42. return tempStr;
  43. }
  44. public static String getSpicalSysbomSpan(char currentChar) {
  45. String tempStr = "";
  46. if (currentChar == ENTER_ASCII) {
  47. tempStr += "<br/>";
  48. } else if (currentChar == SPACE_ASCII) {
  49. tempStr += "&nbsp;";
  50. } else if (currentChar == TABULATION_ASCII) {
  51. tempStr += "&nbsp;&nbsp;&nbsp;";
  52. }
  53. return tempStr;
  54. }
  55. /**
  56. * 特殊字符的取代
  57. * @param currentChar
  58. * @return
  59. */
  60. public static String getSpicalSysbomByRun(String currentChar) {
  61. StringBuffer tempStr = new StringBuffer();
  62. int length = currentChar.length();
  63. for (int i = 0; i < length; i++) {
  64. tempStr.append(getSpicalSysbom(currentChar.charAt(i)));
  65. }
  66. return tempStr.toString();
  67. }
  68. /**
  69. * span方式前缀
  70. * @param cr
  71. * @return
  72. */
  73. public static String toSpanType(CharacterRun cr) {
  74. StringBuffer spanStyle = new StringBuffer("<span style=‘font-family:");
  75. spanStyle.append(cr.getFontName()).append("; font-size:")
  76. .append(cr.getFontSize() / 2).append("pt;");
  77. if (cr.isBold())
  78. spanStyle.append("font-weight:bold;");
  79. if (cr.isItalic())
  80. spanStyle.append("font-style:italic;");
  81. if (cr.isStrikeThrough())
  82. spanStyle.append("text-decoration:line-through;");
  83. if (cr.getUnderlineCode() != 0)
  84. spanStyle.append("text-decoration:underline;");
  85. spanStyle.append("color:")
  86. .append(ColorUtils.getHexColor(cr.getIco24())).append(";")
  87. .append("‘>");
  88. return spanStyle.toString();
  89. }
  90. /**
  91. * 为font方式提供<font前缀
  92. * @param cr
  93. * @return
  94. */
  95. public static String fontFaceColorSizeToHtml(CharacterRun cr) {
  96. StringBuffer htmlType = new StringBuffer("<font ");
  97. htmlType.append("size=‘").append(cr.getFontSize() / 2).append("‘ ")
  98. .append("face=‘").append(cr.getFontName()).append("‘ ")
  99. .append("color=‘")
  100. .append(ColorUtils.getHexColor(cr.getIco24())).append("‘>");
  101. return htmlType.toString();
  102. }
  103. /**
  104. * 处理上下标
  105. * @param cr
  106. * @param currentChar
  107. * @return
  108. */
  109. public static String toSupOrSub(CharacterRun cr, String currentChar) {
  110. int sub = cr.getSubSuperScriptIndex();
  111. if (sub != 0) {
  112. if (sub == 1)
  113. // 上标
  114. return "<sup>" + currentChar + "</sup>";
  115. else
  116. // 下标
  117. return "<sub>" + currentChar + "</sub>";
  118. } else
  119. return currentChar;
  120. }
  121. public static String toSupOrSub(CharacterRun cr, char currentChar) {
  122. return toSupOrSub(cr, new String(new char[]{currentChar}));
  123. }
  124. }

用到的颜色的转换(进行简单的颜色转换)

Java代码  

  1. public class ColorUtils {
  2. public static int  red(int c) {
  3. return c & 0XFF;
  4. }
  5. public static int green(int c) {
  6. return (c >> 8) & 0XFF;
  7. }
  8. public static int blue(int c) {
  9. return (c >> 16) & 0XFF;
  10. }
  11. public static int rgb(int c) {
  12. return (red(c) << 16) | (green(c) <<8) | blue(c);
  13. }
  14. public static String rgbToSix(String rgb) {
  15. int length = 6 - rgb.length();
  16. String str = "";
  17. while(length > 0){
  18. str += "0";
  19. length--;
  20. }
  21. return str + rgb;
  22. }
  23. public static String getHexColor(int color) {
  24. color = color == -1 ? 0 : color;
  25. int rgb = rgb(color);
  26. return "#" + rgbToSix(Integer.toHexString(rgb));
  27. }
  28. }
时间: 2024-10-15 05:29:21

Java读取word文件,字体,颜色的相关文章

Java读取word文件的程序演示

完成对office文件的操作可以借助apache.poi包(我用的poi-3.10-FINAL),导入相应的jar包(最好全部导入) 下面的程序演示了一些操作word的过程,详细的函数功能可以查看此包的官方API import java.io.*; import org.apache.poi.POIXMLDocument; import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.extractor.*; import

java操作office和pdf文件java读取word,excel和pdf文档内容

在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应用.如果想深入了解原理.请读者自行研究一些相关源码. 首先我们来认识一下读取相关文档的jar包: 1. 引用POI包读取word文档内容 poi.jar 下载地址 http://apache.freelamp.com/poi/release/bin/poi-bin-3.6-20091214.zip 

Android读取word文件

之前通过第三方jar包tm-extractors-0.4.jar,实现了一个简单的读取word文件的demo,但是只能读取word的文本数据,无法读取图片.表格数据. 最近参考网上的例子http://blog.csdn.net/xiaoxiaobian3310903/article/details/6598500 终于能够读取word里面的图片,表格等内容.在android系统上读取Word格式文档基于的开源包--POI(The Java API For Microsoft Documents)

java读word文件

Java POI 读取word文件 Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能. 1.读取word 2003及word 2007需要的jar包 读取 2003 版本(.doc)的word文件相对来说比较简单,只需要 poi-3.5-beta6-20090622.jar 和 poi-scratchpad-3.5-beta6-20090622.jar 两个 jar 包即可, 而 2007 版本(.

通过POI读取word文件

POI读取word只能读取内容不能读取格式 tm-extractors-0.4.jar import java.io.FileInputStream; import org.textmining.text.extraction.WordExtractor; public class Test { public static void main(String[] args) { try { FileInputStream in = new FileInputStream("d:\\a.doc&qu

Java读取word文档解决方案

java读取word文档时,虽然网上介绍了很多插件poi.java2Word.jacob.itext等等,poi无法读取格式(新的API估计行好像还在处于研发阶段,不太稳定,做项目不太敢用):java2Word.jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过,操作方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄:itxt好像写很方便但是我查了好久资料没有见到过关于读的好办法.经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,

java 读取word

读取word文件 import java.io.File; import java.io.FileInputStream; import java.io.InputStream; import org.apache.poi.POIXMLDocument; import org.apache.poi.POIXMLTextExtractor; import org.apache.poi.hwpf.extractor.WordExtractor; import org.apache.poi.openx

java读取大文件 超大文件的几种方法

计算机技术学习用书: 编程技术资料:http://myitbook.taobao.com/  电脑技术群:291644908    用技术改变人生,欢迎您的加入 java 读取一个巨大的文本文件既能保证内存不溢出又能保证性能 2010-09-25 11:18:50|  分类: 默认分类 |字号 订阅 import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.Rando

java读取WORD/EXCEL模板转换生成新WORD/EXCEL文档

原文:java读取WORD/EXCEL模板转换生成新WORD/EXCEL文档 代码下载地址:http://www.zuidaima.com/share/1550463239670784.htm 可以通过预先设置指定的excel和word模板,通过替换文档里面指定的标志来生成新的excel和word文档.excel的部分只是实现了简单的方法.word部分可以支持word2003和word2007格式.建议word使用07及其以上. 其实excel部分标签和jstl很像,而且支持循环等.word就支