XML文件解析器TXml

前几天看了开源的XML文件解析器TinyXml,它是怎么实现解析的没怎么看懂,于是决定自己实现一个,反正最近不忙。先命名为TXml。现在完成了解析和查询功能,全部代码加起来不到1000行,将会继续完善它。源码必共享

先简单说一下我的思路:

1:读取XML文件信息,并存入一个字符数组中;

2:遍历数组,将数组解析成一棵树;

3:以路径的方式查询和按属性查询;

这个解析器最麻烦的地方就在怎么将字符数组解析成一颗树。我们先看一下一个简单XML文件,他包括文件头、节点、节点名称及节点值、属性名称及属性值,子节点、父节点、注释等。

<?xml version="1.0" encoding="utf-8" ?>
<!--注释-->
<Items>
  <item name="chentaihan">89757</item>
</Items>

简单介绍一下解析的实现,不太好说清楚,看代码可能更容易理解一些。递归实现,每次都从一个节点开始解析,就是从字符“<”开始,到字符“>”结束,字符<后面就是节点的名称,之后的就是节点属性,字符>后一个字符如果不是<,那就是节点的值,如果是字符<,可能是子节点也可能是这个节点结束了。遇到字符<开始递归,空格和注释直接被PASS。大致代码如下:

const char* TXmlParser::ParseContent(const char* p,XmlNode* baseNode)
{
    if(p==NULL || !*p)
        return NULL;
    if(*p==‘<‘)//开始一个节点
    {
        bool isNote;
        p=SkipNote(p,isNote);//跳过注释
        if(isNote) {//是注释
            ParseContent(p,baseNode);
            return NULL;
        }
        if(*p==‘/‘)//结束节点
        {
            while(p!=NULL && *p && *p!=‘>‘)
            {
                p++;
            }
            ++p=SkipWhiteSpace(p);
            ParseContent(p,baseNode->parent);//新节点
        }else{ //节点属性
            string name;
            while(p!=NULL && *p && *p!=‘>‘ && *p!=‘ ‘ && *p!=‘/‘)
            {
                 name.push_back(*p++);
            }
            XmlNode* node=new XmlNode(name,baseNode);
            baseNode->AppendNode(node);

            if(*p==‘>‘)
            {
                ++p=SkipWhiteSpace(p);
                ParseContent(p,node);//新节点
            }else{
                p=GetAttr(p,node);
                if(*p==‘/‘)
                {
                    while(p!=NULL && *p && *p!=‘<‘)
                        p++;
                    ParseContent(p,baseNode);//新节点
                }else{
                    ++p=SkipWhiteSpace(p);
                    ParseContent(p,node);//新节点
                }
            }
        }
    }else{//节点的值
        GetNodeValue(p,baseNode);
    }
}

按路径的方式查询。利用两个数组实现,假设这两个数组分别为A,B;第一次查询将结果存入数组A,将A作为数据源,将查询结果存入B,清除A中的数据,将B作为数据源,将查询结果存入A,反复进行,最后A,B中有一个就是查询结果。当然也可以用递归实现,我们都知道递归太深容易爆线程栈,且性能低。

按属性查询。同样没有用递归实现,有个经常出现的面试题:按层序打印一个棵树。那么这里也是按层序查找,就是利用一个队列,按根节点、根节点的直接子节点进栈,一个个匹配,不匹配就出队列。

//根据属性查询--利用队列按层序查询
XmlNode* XmlNode::SelectSingleNodeByAttr(const string& attrName,const string& attrValue,XmlNode* node)
{
    if(node==NULL)
        return NULL;
    if(node->attribute!=NULL && (*node->attribute)[attrName]==attrValue)
    {
        return node;
    }
    queue<XmlNode*> list;
    for(int i=node->ChildCount()-1;i>=0;i--)
    {
        list.push((*node->childNodes)[i]);
    }

    while(list.size()>0)
    {
        XmlNode* tmpNode=list.front();
        if(tmpNode->attribute!=NULL && (*tmpNode->attribute)[attrName]==attrValue)
        {
            return tmpNode;
        }
        for(int i=tmpNode->ChildCount()-1;i>=0;i--)
        {
            list.push((*tmpNode->childNodes)[i]);
        }
        list.pop();
    }
    return NULL;
}

看了按属性查找,我们就很容易知道,C#中ConfigurationManager读取配置文件的大致实现,因为配置文件很简单,就是一个节点下面有多个节点,完全可以这样实现,根节点基本可以无视,直接就是一个字典,KEY存key的值,VALUE存value的值,查找的时间复杂度就是O(1)。

简单测试:

#include "XmlDocument.h"

int main()
{
    {
        XmlDocument doc;
        doc.Load("test.txt");
        cout<<"XML头部:"<<doc.Head().c_str()<<endl;
        cout<<"显示全部学生成绩:" ;
        doc.ShowXML(doc);
        cout<<endl;
        vector<XmlNode*> vect;
        doc.SelectNodes("students/student/courses/course",vect);

        XmlNode* node=doc.SelectSingleNode("students/Student/courses/course/Course"); 

        if(node!=NULL)
        {
            node->ShowXML(*node);
            cout<<"name:"<<node->Name().c_str()<<endl;
            cout<<"属性:";
            node->ShowAttr() ;
            cout<<endl;
            cout<<"value:"<<node->Value().c_str()<<endl;
            cout<<"ChildCount:"<<node->ChildCount()<<endl<<endl;

             XmlNode::Iterator iter=node->begin();
            while(iter!=node->end())
            {
                cout<<"name:"<<(*((iter)._Ptr))->Name().c_str() <<endl;
                cout<<"value:"<<(*((iter)._Ptr))->Value().c_str() <<endl;
                iter++;
            }
        }
        cout<<"查找name=‘英文’的节点:"<<endl;
        XmlNode* node2=doc.SelectSingleNodeByAttr("name","英文");
        if(node2!=NULL){
            node2->ShowXML(*node2);
        }
    }

    system("pause");
    return 0;
}

运行结果如下:

 

时间: 2024-12-21 12:13:02

XML文件解析器TXml的相关文章

Atitit。Tree文件解析器的原理流程与设计实现&#160;&#160;java&#160;&#160;c#&#160;php&#160;js

Atitit.Tree文件解析器的原理流程与设计实现  java  c# php js 1. 解析原理与流程1 1.1. 判断目录  ,表示服  dirFlagChar = "└├─";1 1.2. 剑豪制表符出现的位置与文件夹级别对应表1 1.3. 主要判读流程2 2. Tree结果2 3. Code----3 4. 结果5 1. 解析原理与流程 1.1. 判断目录  ,表示服  dirFlagChar = "└├─"; 其中-类似于剑豪的制表符是表示目录的..够

PHP XML Expat 解析器

PHP XML Expat 解析器 内建的 Expat 解析器使在 PHP 中处理 XML 文档成为可能. XML 是什么? XML 用于描述数据,其焦点是数据是什么.XML 文件描述了数据的结构. 在 XML 中,没有预定义的标签.您必须定义自己的标签. 如需学习更多关于 XML 的知识,请访问我们的 XML 教程. Expat 是什么? 如需读取和更新 - 创建和处理 - 一个 XML 文档,您需要 XML 解析器. 有两种基本的 XML 解析器类型: 基于树的解析器:这种解析器把 XML

android基础知识13:AndroidManifest.xml文件解析

1.重要性 AndroidManifest.xml是Android应用程序中最重要的文件之一.它是Android程序的全局配置文件,是每个 android程序中必须的文件.它位于我们开发的应用程序的根目录下,描述了package中的全局数据,包括package中暴露的组件 (activities, services, 等等),以及他们各自的实现类,各种能被处理的数据和启动位置等重要信息. 因此,该文件提供了Android系统所需要的关于该应用程序的必要信息,即在该应用程序的任何代码运行之前系统所

XML文件解析之JDOM解析

1.JDOM介绍 JDOM的官方网站是http://www.jdom.org/,JDOM解析用到的jar包可以在http://www.jdom.org/dist/binary/中下载,最新的JDOM2的版本是2.0.5,JDOM1的版本是1.1.3,根据官网中的介绍可以知道.JDOM是一个在基于内存的XML模型,它用于读写创建修改XML文档.JDOM和DOM相似因为他们都提供了内存XML文档模型,但是DOM被设计用于很多种语言(C,C++,ECMSctipr,Java,JScript,Lingo

XML文件解析【安卓7】——SAX解析

XML文件解析 XML解析:XML技术是Android平台的应用基础,  Android提供了多种解析XML的方式:SAX解析.DOM解析.PULL解析 SAX解析 SAX --Simple  API  forXML  (XML简单的API) --解析速度快.占用内存少 --提供一组简单的API用于解析XML文件 --SAX在解析XML文件前,先指定一个解析事件处理器(Handler),SAX会对XML文档进行简单的顺序扫描,当扫描到[文档(Document)的开始和结束.元素(Element)

八、Android学习第七天——XML文件解析方法(转)

(转自:http://wenku.baidu.com/view/af39b3164431b90d6c85c72f.html) 八.Android学习第七天——XML文件解析方法 XML文件:extensible markup language 定义:用于标记电子文件使其具有结构性的标记语言,可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. 解析XML的方式: SAX——Simple API for XML,既是一种接口,也是一个软件包采用的是事件驱动,也就是它解析

Win10系列:VC++ XML文件解析

XML文件按照元素标记来存储数据,通过遍历这些元素标记可以得到XML文件中所保存的数据.在C++/CX的类库中并未定义用于解析XML文件的类,但C++提供了能解析XML文件的框架和类库,如msxml4.libxml.IXMLDOM和TinyXML等,在使用C++/CX编写应用程序时可以通过C++提供的框架和类库来解析XML文件.TinyXML是一个轻量级解析XML的框架,本节将介绍如何使用此框架来解析一个XML文件. TinyXML框架包含了以下的类和函数,通过使用这些类和函数可以方便地读取一个

通过正则表达式实现简单xml文件解析

这是我通过正则表达式实现的xml文件解析工具,有些XHTML文件中包含特殊符号,暂时还无法正常使用. 设计思路:常见的xml文件都是单根树结构,工具的目的是通过递归的方式将整个文档树装载进一个Node对象.xml文档树上的每一个节点都是一个Node对象,对象拥有title.attribute和text三个自身变量以及一个childrenNode集合. 一.编写Node类 import java.io.Serializable; import java.util.HashMap; import j

JAVA之XML文件解析

在Java.Android开发中,xml文件的解析很重要.本人使用过的xml文件解析的方式有两种,一种是DOM文档解析.还有一种是SAX. DOM是基于文档树结构的.SAX是基于事件驱动的.SAX则是遇到标签则触发工作的.当解析器发现元素开始.元素结束.文本.文档的开始或结束等时,发送事件,程序员编写响应这些事件的代码,保存数据.优缺点很明显:DOM对于大型文件的操作不好(因为它要先读入整个文档到内存中),SAX为了解决这样问题.不用事先调入整个文档,占用资源少:SAX解析器代码比DOM解析器代