含Unicode字符XML文件解决

在最近的工作中需要使用XML文件做数据存储，由于此XML文件的内容是不同的数据来源的数据，在解析XML文件时，遇到几处相似的异常：无效的XML字符 (Unicode: 0x9e)。 (Unicode: 0x8b)。

Exception in thread "main" org.xml.sax.SAXParseException; lineNumber: 24; columnNumber: 180; 在文档的元素内容中找到无效的 XML 字符 (Unicode: 0x9e)。

at com.sun.org.apache.xerces.internal.util.ErrorHandlerWrapper.createSAXParseException(Unknown Source)

at com.sun.org.apache.xerces.internal.util.ErrorHandlerWrapper.fatalError(Unknown Source)

at com.sun.org.apache.xerces.internal.impl.XMLErrorReporter.reportError(Unknown Source)

at com.sun.org.apache.xerces.internal.impl.XMLScanner.reportFatalError(Unknown Source)

...

一开始，试图对XML文件进行不同格式的修改，UTF-8，ANBI等等，均无效（后来明白过来了，字符值根本没有改变），接着去寻找解决办法，试图把Unicode转变为UTF-8，也找了相关的算法，但是XML中仅仅含有几处Unicode字符，也没能解决。

后来找了一些资料发现这些字符有些共性：这些无效的字符在一些文档中作为文档处理器的控制编码（微软选择了那些再0x82到0x95之间的字符作为"smart"标点），这些也被Unicode保留作为控制编码的，并且在XML中是不合法的。

在下面的网页中有所有的Unicode字符，对应的UTF-8字符，以及它代表的意义

http://www.utf8-chartable.de/unicode-utf8-table.pl?utf8=0x

最后我还是把这些无效的Unicode字符转变为空字符（Scala代码）

    def UnicodeStringHandler(value:String) = {
    	val chs = value.toArray
        for(i <- 0 until value.length()) {
          if (chs(i) > 0xFFFD)
            {
            chs(i) = ‘ ‘;
            } 
            else if (chs(i) < 0x20 && chs(i) != ‘\t‘ & chs(i) != ‘\n‘ & chs(i) != ‘\r‘)
            {
             chs(i) = ‘ ‘;
            }
            else if(chs(i) >= 0x80 && chs(i) <= 0x9f){
               chs(i) = ‘ ‘;
            }
        }
        new String(chs);
    }

时间： 2024-11-08 02:03:29

含Unicode字符XML文件解决

含Unicode字符XML文件解决的相关文章

php json_encode总是返回unicode字符 "\u..."问题解决

MAVEN打包丢失xml文件解决办法

解决android中Layout文件下的xml文件配好后,R类中不能自动生成相应代码

[总结]Perl在遇到Unicode字符文件名时的各种处理方法

大容量导入或导出的数据格式 -- Unicode字符格式

xml文件生成

启动项目时，mapper.xml文件没有导入

不在JPA 的 persistence.xml 文件中配置Entity class的解决办法

【Struts2】☆★之解决struts.xml文件提示问题