黄聪:HtmlAgilityPack,C#实用的HTML解析类简介

HtmlAgilityPack是.net下的一个HTML解析类库。支持用XPath来解析HTML。这个意义不小,为什么呢?因为对于页面上的元素的xpath某些强大的浏览器能够直接获取得到,并不需要手动写。节约了大半写正则表达式的时间,当然正则表达式有时候在进一步获取的时候还需要写,但是通过xpath解析之后,正则表达式已经要匹配的范围已经非常小了。而且,不用正则表达式在整个页面源代码上匹配,速度也会有提升。总而言之,通过该类库,先通过浏览器获取到xpath获取到节点内容然后再通过正则表达式匹配到所需要的内容,无论是开发速度,还是运行效率都有提升。

  HtmlAttribute  对应  Html元素的属性

  HtmlAttributeCollection  一个元素属性的集合,实现了IList<HtmlAttribute>, ICollection<HtmlAttribute>, IEnumerable<HtmlAttribute>, IEnumerable,都是集合的那一套东西,没有新东西。

  HtmlNode    对应  HTML节点,包括注释,文本,元素等

  HtmlNodeCollection  一个HtmlNode节点集合,实现了HtmlNodeCollection : IList<HtmlNode>, ICollection<HtmlNode>, IEnumerable<HtmlNode>, IEnumerable继承了这些东西就没什么需要说的了,都是集合的东西,没有新的东西。完全是集合那一套。

  HtmlNodeType  一个枚举  表示节点的类型,文档,注释,元素,文本。

  HtmlTextNode  对应Html文本节点,很简单的一个类,继承自HtmlNode。

  HtmlEntity   对应实体   实用程序类以替换特殊字符的实体,反之亦然

  HtmlParseError   表示文档在解析过程中发现的解析错误。

  还有一些其他的类,留到以后有用过的时候再补充。

  

下载地址:http://htmlagilitypack.codeplex.com/

时间: 2024-11-09 04:02:39

黄聪:HtmlAgilityPack,C#实用的HTML解析类简介的相关文章

黄聪:HtmlAgilityPack,C#实用的HTML解析类 ---- HtmlNode类

HtmlAgilityPack中的HtmlNode类与XmlNode类差不多,提供的功能也大同小异.下面来看看该类提供功能. 一.静态属性 public static Dictionary<string, HtmlElementFlag> //ElementsFlags;获取集合的定义为特定的元素节点的特定行为的标志.表包含小写标记名称作为键和作为值的 HtmlElementFlags 组合 DictionaryEntry 列表. public static readonly string H

最近采集写的一个超简单实用的HTML解析类

1. [文件] HtmlDom.php <?php$oldSetting = libxml_use_internal_errors( true ); libxml_clear_errors();/** *  * -+----------------------------------- * |PHP5 Framework - 2011 * |Web Site: www.iblue.cc * |E-mail: [email protected] * |Date: 2012-10-12 * -+--

《黄聪:手机移动站SEO优化教程》4、如何实现手机移动网站和PC站点的自主适配

转载:http://blog.csdn.net/dog250/article/details/6896949 UDP协议疑难杂症全景解析 2011-10-22 19:26 2989人阅读 评论(4) 收藏 举报 tcp网络算法交通socket通讯 如今,但凡说精通网络的,第二个意思就是"精通TCP",事实上,很多自称精通TCP的家伙们只是精通socket接口而已,对TCP行为精通的并不多,笔者也不算精通,但绝对是中等以上水平.如果你真的精通TCP行为,那么本文不读也罢,直接发邮件给我,

黄聪:《跟黄聪学WordPress插件开发》

续<跟黄聪学WordPress主题开发>之后,又一个作品完成!<跟黄聪学Wordpress插件开发>,国内最好的Wordpress插件开发视频教程!! 目录预览: WordPress插件简介 WordPress插件的创建 认识钩子:动作(add_action与do_action) 认识钩子:带参数的动作 认识钩子:常用的动作实用案例 认识钩子:过滤器(add_filter与apply_filters) 认识钩子:带参数的过滤器 认识钩子:常用的过滤器实用案例 后台整合:创建菜单和子

黄聪:《网站高转换率法则》#2:你的网站是垃圾站吗?

原文链接:http://user.qzone.qq.com/281808710/blog/1411485614 我们接着之前的话题继续聊聊. 我们先来看看,你的网站是否存在下面几个问题: 1.我的网站每天都有不少流量,但是我不懂怎么留住这些流量. 2.我不懂怎么让这些流量成交. 3.我不懂怎么让这些流量帮助我带来新的流量. 那么,这些站长为什么会苦恼于这几个问题呢?我们来试着寻找一下答案. 1.关于网站的那些事儿 在我看来,绝大多数存在以上问题的网站,一般都是这样诞生的: 无论哪个行业,你只要通

黄聪:如何用代码设置控制自己网站的网页在360浏览器打开时强制优先使用极速模式,而非兼容模式

最近用360浏览器访问自己的网站,发现都是被优先选用兼容模式打开,这使得网站很难看.为了让360浏览器打开网站的时候优先试用极速模式,找了一下官方论坛,发现了解决方案. 在head标签中添加一行代码: <html> <head> <meta name="renderer" content="webkit|ie-comp|ie-stand"> </head> <body> </body> <

黄聪:WordPress 多站点建站教程(六):使用WP_Query、switch_to_blog函数实现获取子站点分类中的文章

首先在你使用主题的funtions.php里面添加下代码: //根据时间显示最新的分类文章内容,每个站点显示一篇内容 //$blog_id 子站点ID //$catid 分类ID wp_reset_query(); switch_to_blog($blog_id); global $post;?> $my_query2 = new WP_Query('showposts=1&order=desc&orderby=date&cat='.$catid); while ($my_q

黄聪:如何删除wordpress登录之后wp_footer、wp_head自行加载的Open Sans字体、fonts.googleapis.com连接导致卡死的问题

有时候在浏览自己的WordPress网站时,发现网页长时间无响应, 卡在正在连接到fonts.googleapis.com ,如下图所示: 查看网页源码时,发现Head里面有如下一段代码: <link rel='stylesheet' id='open-sans-css' href='//fonts.googleapis.com/css?family=Open+Sans%3A300italic%2C400italic%2C600italic%2C300%2C400%2C600&subset=

黄聪:《网站高转换率法则》#1:为什么要研究网站转换率?

最近,在研究自媒体. 我研究知识的方式,第一步,就是找师傅,并且是付费找师傅. 很多人学习,总喜欢自学,总认为自己可以通过自己的努力,爬上技术的巅峰. 其实,这是最笨的方法. 除非你研究的技术,是前无古人的,那你唯有自学一条路. 但是,如果你研究的技术,已经有人早就走过这条路,你只需要付费跟着前人学习.那么你完全可以在最短的时间,走最少的弯路就掌握这门技术. 为了学习自媒体,我花钱加入了几个自媒体的班级,抱团学习. 为什么要学习自媒体呢? 我不想做太多介绍,总之我是看到了自媒体的威力,才决定学习