将Html文档整理为规范XML文档

有多种方式可以在.NET 平台进行HTML文件解析、数据提取，其中最简单、稳妥的办法是先使用工具将Html文档整理成XML文档，再通过XML Dom模型或XPath灵活地进行数据处理。SGML便是一个Html文档整理工具类库：

Microsoft的XML大师Chris Lovett专门开发了一个SGML解析器，叫做SgmlReader，它可以解析HTML文件，甚至将它们转换成一个格式规范的结构。 SgmlReader派生于XmlReader，这就是说，你可以像运用诸如XmlTextReader这样的类来解析XML文件那样来解析HTML文件。

这是一段示例代码：

public static XmlDocument ConvertHtmlToXml(string html)

using (SgmlReader sgmlReader = new SgmlReader()) {

sgmlReader.DocType = "HTML";

sgmlReader.InputStream = new StringReader(html);

using (StringWriter stringWriter = new StringWriter()){

using (XmlTextWriter xmlWriter = new XmlTextWriter(stringWriter))

{

while (!sgmlReader.EOF) {

xmlWriter.WriteNode(sgmlReader, true);

}

}

}

}

XmlDocument xmlDoc = new XmlDocument();

xmlDoc.LoadXml(stringWriter.ToString());

return xmlDoc;

主页：http://code.msdn.microsoft.com/SgmlReader

语言：英文授权形式：开源

相关网址：

http://msdn.microsoft.com/en-us/library/aa302299.aspx

下载页(SourceForge) SgmlReader 1.8 MSDN代码库

将Html文档整理为规范XML文档

时间： 2024-08-27 14:00:41

将Html文档整理为规范XML文档的相关文章

源生API解析XML文档与dom4j解析XML文档

一.XML语言 XML是一种可扩展的标记语言,是一种强类型的语言,类似HTML(超文本标记语言,是一种弱类型的语言).XML是一种通用的数据交换格式(关系型数据库),综上所诉:XML可以传输数据,也可以存储数据. 1.XML语言书写的注意事项 1.XML标签命名自定义[推荐英文],标签名中不能包含空格 2.XML空格和换行都表示数据,严格区分大小写 3.XML中特殊字符表示的数据需要使用特殊字符编码和HTML一样 4.CDATA区中的数据不会被识别为语法 <![CDATA[王天霸<>&l

XML文档类型定义---XML Schema结构

5.1 Schema概述 XML Schema是2001年5月正式发布的W3C的推荐标准,经过数年的大规模讨论和开发如今终于尘埃落定,成为全球公认的XML环境下首选的数据建模工具. 使用DTD虽然带来较大的方便,但是,DTD存在一些缺陷:一是它用不同于XML的语言编写,需要不同的分析器技术.这增加了工具开发商的负担,降低了软件瘦身的可能性,此外开发人员需要多学一门语言及其语法.而XML Schema是按标准XML规则编写的,更容易掌握.二是DTD不支持名称空间.随着大部分的数据处理日益以XML为

Ionic2文档整理

来自:Rainey's Blog 原文地址:http://rainey.space/2016/04/06/Ionic2_Chinese_Document/ Github:https://github.com/XueRainey/ionic2 ionic2文档整理发表于 2016-04-06 | 本文档不是英文文档的完全翻译,是个人的阅读笔记.如果阅读后有不明白或者不懂,请移步英文版阅读.如果本文有错误,请在本页末尾留言或者提交Issues. 您可以点击小标题跳转到相应的ionic2英文文档

XML文档追加内容，读取内容

<> 1>从根节点开始追加 using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Xml; namespace 追加XML { class Program { static void Main(string[] args) { //追加XML文档(追加X

XML 文档的结构

XML 文档的组成一个XML文档由两部分构成:第一部分是文档序言,第二部分是文档元素(节点). 1.文档序言文档序言通常位于XML文档的顶端,根元素之前出现,它是一个特定的包含XML 文档设定信息的部分.XML 文档序言由如下几个部分组成: XML 声明:用来设置XML文档解析时所需的基本参数. 处理指令:为某个特定类型的软件反馈一条特殊的指令. 文档类型定义:用来设置更多高级的信息,如实体.属性及有效性相关的信息. 注释:用于提醒XML文档作者或临时标注出文档中不完善的部分. 2.文档元素

关于XML文档的讲解

1 XML的概述 1.1 什么是XML XML全称为Extensible Markup Language,意思是可扩展的标记语言.XML语法上和HTML比较相似,但HTML中的元素是固定的,而XML的标签是可以由用户自定义的. W3C在1998年2月发布1.0版本,2004年2月又发布1.1版本,但因为1.1版本不能向下兼容1.0版本,所以1.1没有人用.同时,在2004年2月W3C又发布了1.0版本的第三版.我们要学习的还是1.0版本!!! 1.2 XML的应用场景保存关系型数

DOM和SAX是应用中操纵XML文档的区别

DOM和SAX是应用中操纵XML文档的两种主要API,它们分别解释如下: DOM,即Document Object Model,中文叫文档对象模型.DOM是W3C定义的标准文档对象模型,是一个与操作系统和编程语言无关的.用于内存存储和操作层次化文档的模型.当按照DOM模型解析XML文档时,就会在内存中构造一个对应的DOM树,它可以用于不同节点之间的遍历.然而,在遍历之前必须先完成DOM树的构造.因此, 在处理规模较大的XML文档时就很耗内存,占用资源较多.尤其是只需要操作文档中一小部分时效率

dom4j 解析 XML文档截录

dom4j 是一种解析 XML 文档的开放源代码 XML 框架.本文介绍如何使用包含在 dom4j 中的解析器创建并修改 XML 文档. dom4j API 包含一个解析 XML 文档的工具.本文中将使用这个解析器创建一个示例 XML 文档.清单 1 显示了这个示例 XML 文档,catalog.xml. 清单 1. 示例 XML 文档(catalog.xml) <?xml version="1.0" encoding="UTF-8"?> <cat

XML DOM 遍历Xml文档

1.xml文档内容: <?xml version="1.0" encoding="utf-8" ?> <bookstore> <book category="children"> <title lang="en">Harry Potter</title> <author>J K. Rowling</author> <year>200

猜你喜欢

信息表示和处理 from computer system chapter 2

1.整数的表示大部分(所有?)机器有符号数是补码表示. 2.整数的运算.+ -就是+-,按位加减,注意有符号和无符号的数值溢出,*/ 可以转换成移位等同样是有位的截断,可以先十进制计算换成2进制 ...

iOS开发小技巧--边接受数据边写入文件的两种方法

一.NSFileHanle 使用注意点:在往文件写入数据时,必须创建一个空的文件指定文件写入的方式 -- 覆盖还是追加最后记得关闭 <1>代码是在大文件传输的练习中截取的.写入数据之前 ...

VTK 6.1 安装配置

安装可以参考http://blog.csdn.net/jasonleesjtu/article/details/8211692 过程大致一样. VTK 6.1 相对于VTK 5 在目录结构方面有很大的 ...

《构建之法》阅读提问

快速阅读完<构建之法>后的几个疑问: 1.成长与代码量是什么关系?代码量与工程师的水平呈现什么关系? 2.课本上对结对编程很赞赏,而实际工作中,两个人结对编程是不是浪费了一个人的工作量,有 ...

createElement() 创建元素 appendChild()添加元素

Javascript window 对象的document.createElement() 方法.语法及其使用. 1.方法创建一个新的html元素对象,并可返回一个Element 对象,新创建的El ...

javap在eclipse中的配置

下午学到静/动态绑定,接触到了javap这个东东,结果就去配置它.然后去百度,找啊找,按照网上说的,试了一个又一个,一直没成功,最后跑到群里问学长,和学长讨论半天,才最终配置好.我觉得会有不少菜鸟也会 ...

MariaDB 复合语句和优化套路

测试环境准备本文主要围绕的对象是mariadb 高级语法, 索引优化, 基础sql语句调优. 下面那就开始搭建本次测试的大环境. 首先下载mariadb开发环境, 并F5 run起来. 具体参照 ...

深入理解IOS布局和view加载显示

前言一个控件从外在特征来说,主要是封装这几点: 交互方式显示样式数据使用对外在特征的封装,能让我们在多种环境下达到 PM 对产品的要求,并且提到代码复用率,使维护工作保持在一个相对较小的范围内 ...

Spring配置机制的优缺点 - Annotation vs XML

转自 http://tianzongqi.iteye.com/blog/1458002 XML配置的优缺点: 优点: XML配置方式进一步降低了耦合,使得应用更加容易扩展,即使对配置文件进一步修改也不 ...

（转）通过 XML Catalog 实现 XML 文件的自动化实时校验

引言 XML Catalog 实现了根据 XSD 实时校验 XML 文件的功能.用户不用编写程序,通过少量的配置就可以在编辑 XML 文件的时候得到及时的反馈(需要在 XML 编辑器进行文件的编写), ...

ThinkPHP开发前准备

1.ThinkPHP3.2.3完整版(require PHP_VERSION > 5.3.0) 2.WampServer集成环境(PHP, Mysql, Apache) 问题1: 安装好wamp ...

udpsocket 通信C#例子

服务端代码: using System; using System.Collections.Generic; using System.Linq; using System.Net; using Sy ...

QStandardItemModel中设置项目的背景颜色

如何根据内容显示不同的背景颜色? 参照ECMWF的Metview源码实现. Qt的Model中不同类型的数据用role区分,Qt的宏ItemDataRole提供了一些角色: 1 2 3 4 5 6 7 ...

Android ListView异步加载数据

1.主Activity 1 public class MainActivity extends Activity { 2 3 private ListView listView; 4 private ...

ueditor编辑器和at.js集成

源码: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8&qu ...

14.linux-platform机制实现驱动层分离(详解)

版权声明:本文为博主原创文章,未经博主允许不得转载. 本节目标: 学习platform机制,如何实现驱动层分离 1.先来看看我们之前分析输入子系统的分层概念,如下图所示: 如上图所示,分 ...

HDOJ 题目2846 Repository（字典树）

Repository Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) Total ...

Android Message handling (based on KK4.4)

一.几个关键概念 1.MessageQueue:是一种数据结构,见名知义,就是一个消息队列,存放消息的地方.每一个线程最多只可以拥有一个MessageQueue数据结构. 创建一个线程的时候,并不会自 ...

unity3D和串口之间的通信，接收下位机数据和发送指令

using UnityEngine;using System.Collections;using System.IO.Ports;using System;using System.Collectio ...

1. ArcGIS Multidimention tools, Make NetCDF Raster Layer Note:仅通过arcgis很难知道, 显示的图像和真实的图像存在线性关系通过mat ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.