TinyXML 解析 UTF-8 字符串的问题

TinyXML 在解析 UTF-8 格式的 XML 文件时,如果文件中含有以下两个字符串:“<name>文史经典</name>” 和 “<name>资讯速递</name>” 时,解析失败。

分析代码,发现失败的原因是如下的代码:

tinyxmlparser.cpp 文件中的函数:const char* TiXmlBase::ReadText()

1 int len;
2 char cArr[4] = { 0, 0, 0, 0 };
3 p = GetChar( p, cArr, &len, encoding );
4 if ( len == 1 )
5     (*text) += cArr[0]; // more efficient
6 else
7     text->append( cArr, len );  

初步分析,是对 UTF-8 字符串的解析问题。

解析使用了如下的表:

1 const int TiXmlBase::utf8ByteTable[256] = {// 0 1 2 3 4 5 6 7 8 9 a b c d e f1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, // 0x001, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
2  1, 1, 1, 1, // 0x101, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, // 0x201, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, // 0x301, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, // 0x401, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, // 0x501, 1, 1, 1, 1, 1,
3  1, 1, 1, 1, 1, 1, 1, 1, 1, 1, // 0x601, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, // 0x70 End of ASCII range1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, // 0x80 0x80 to 0xc1 invalid1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, // 0x90 1, 1, 1, 1, 1,
4  1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, // 0xa0 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, // 0xb0 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, // 0xc0 0xc2 to 0xdf 2 byte2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, // 0xd03, 3, 3, 3, 3, 3, 3, 3, 3, 3,
5  3, 3, 3, 3, 3, 3, // 0xe0 0xe0 to 0xef 3 byte4, 4, 4, 4, 4, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 // 0xf0 0xf0 to 0xf4 4 byte, 0xf5 and higher invalid};

此表网上可以 google 到的。为何会解析失败,原因待查。

时间: 2024-11-03 21:38:43

TinyXML 解析 UTF-8 字符串的问题的相关文章

JSON.parse() 方法解析一个JSON字符串

JSON.parse() 方法解析一个JSON字符串,构造由字符串描述的JavaScript值或对象.可以提供可选的reviver函数以在返回之前对所得到的对象执行变换. 语法EDIT JSON.parse(text[, reviver]) 参数 text 要被解析成JavaSctipt值的字符串,查看 JSON 对象学习的JSON 语法的说明. reviver 可选 如果是一个函数,则规定了原始值如何被解析改造,在被返回之前. 返回值 Object对应给定的JSON文本. 异常 若被解析的 J

利用TinyXML解析XML文件

下载地址:TinyXML 解压缩TinyXML后,找到六个文件: tinystr.h.tinystr.cpp.tinyxml.h.tinyxml.cpp.tinyxmlerror.cpp.tinyxmlparser.cpp 将这六个文件放在你的C++工程中,跟你的源文件在同一目录下. 新建一个XML文件,命名为Students.xml : <Class name="计算机软件班"> <Students> <student name="张三&quo

解析URL查询字符串参数为对象

高程3使用拼接字符串形式解析的查询字符串,网上有各种正则方式解析的,记得太多,临时需要写的时候,自己都搞混乱了.只记一种吧,用正则. function getQueryStringArgs() { var search = (location.search.length > 0 ? location.search.slice(1) : ""); var obj = {}; var reg = /([^?&=]+)=([^?&=]*)/g; search.repla

【Jsoup学习礼记】解析一个HTML字符串

存在问题 来自用户输入,一个文件或一个网站的HTML字符串,你可能需要对它进行解析并取其内容,或校验其格式是否完整,或想修改它.怎么办?jsonu能够帮你轻松解决这些问题 解决方法 使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri)示例代码: String html = "<html><head><title>First parse</title><

Cocos2d-x 3.0 使用TinyXml 解析XML文件

在cocos2d-x 3.0中Xml解析已经不用自己找库了,已经为我们集成好了. text.xml <!--?xml version ="1.0" encoding ="UTF8" standalone="yes" ?--> <!--?xml-stylesheet type="text/xsl" href="yxfqust.xsl" ?--> <!--下面是一个学生名单--&g

PL/SQL连接时,报无法解析指定的字符串

前言: 工作原因,需要安装PL/SQL连接数据,oracle和PL/SQL都装好了,环境变量也配好了,启动PL/SQL进行连接数据库,结果报“无法解析指定的字符串”,连接失败了. 解决方法: 1.这个问题的主要原因是tnsnames.ora没有配置好导致,将里面的配置信息改成工作中需要的即可 2.检查oracle的服务有没有启动,计算机>管理>服务>查找有没有oracle的服务(如果没有,可能要再装oracle) 笔者的tnsnames.ora文件配置没问题,中途有重启了电脑,打开服务时

解析一个HTML字符串

存在问题 来自用户输入,一个文件或一个网站的HTML字符串,你可能需要对它进行解析并取其内容,或校验其格式是否完整,或想修改它.怎么办?jsonu能够帮你轻松解决这些问题 解决方法 使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri)示例代码: String html = "<html><head><title>First parse</title><

自个倒腾的解析XML格式字符串的类【具备一定的通用性】

在公司写了很多解析xml字符串的代码,之前都是不同的结构都是写一段这个结构的DOM操作的代码来获取数据.写了几十个,每个几十行代码,又烦! 一直想写一个比较通用一点的类,这几天有了一点想法,直接上代码了!没有考虑兼容性,也没有在项目中使用,就当作工作总结了,欢迎大家提意见. <!DOCTYPE HTML> <head> <meta charset="utf-8"> <title>适用的xml字符串解析</title> <

小知识积累-C++使用tinyxml解析Xml内存泄漏问题

项目中需要用到C++解析XML,网上搜到tinyxml这么个开源库,就用了下试试,创建对象后内部自带Clear方法,但在循环测试的时候(刚用C++做项目不久,不会什么特别的内存泄漏测试工具,于是就写个死循环反复执行功能函数),用任务管理器查看发现内存一直在增大...后来通过调试发现,Clear只会清除其子节点,而自己本身不会释放,所以需要自己补上.代码如下: 1 #include <iostream> 2 #include "tinyxml.h" 3 #include &q