解析html和采集网页的神兵利器

HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库，主要用于在服务器端解析html文档（在B/S结构的程序中客户端可以用Javascript解析html）。截止到本文发表时，HtmlAgilityPack的最新版本为1.4.0。下载地址：http://htmlagilitypack.codeplex.com/

下载后解压缩后有3个文件，这里只需要将其中的HtmlAgilityPack.dll（程序集）、HtmlAgilityPack.xml（文档，用于Visual Studio 2008中代码智能提示和帮助说明之用）引入解决方案中即可使用，无需安装任何东西，非常“绿色环保”。

在C#类文件开头引入using HtmlAgilityPack;就可以使用该命名空间下的类型了。实际使用中，几乎都是以HtmlDocument类为主线的，这一点非常类似于微软.net framework中的XmlDocument类。XmlDocument类是操作的是xml文档，而HtmlDocument类操作的是html文档（其实也可以操作xml文档），它们的操作方式都是基于Dom，所不同的是后者取消了诸如GetElementsByTagName这样的方法，强化了GetElementById方法（在HtmlDocument中可以直接使用，而XmlDocument则不可以）。HtmlAgilityPack中定位节点基本上都用Xpath表达式，Xpath表达式的参考文档可见：http://www.w3school.com.cn/xpath/xpath_syntax.asp

例如，我们要采集博客园首页推荐文章的标题，在ASP.NET中可以编写如下代码：

[csharp] view plain copy

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument htmlDoc = htmlWeb.Load(@"http://www.cnblogs.com/");
HtmlNodeCollection anchors = htmlDoc.DocumentNode.SelectNodes(@"//a[@class=‘titlelnk‘]");
foreach (HtmlNode anchor in anchors)
Response.Write(anchor.InnerHtml + "<br/>");
Response.End();

这段代码将采集到的首页html静态文本解析成Dom节点树，然后用Xpath表达式获取整个文档中class属性值为titlelnk的所有a元素。获取节点最常用节点对象的两个方法：SelectNodes("xpath表达式")和SelectSingleNode("xpath表达式")，前者返回节点集合HtmlNodeCollection的一个实例；后者返回满足条件的第一个节点，类型为HtmlNode的一个实例。后面的Foreach循环输出每个a元素的内联文本。

通常情况下，HtmlAgilityPack比正则表达式解析html更加高效准确，这体现在开发效率和运行性能两方面。HtmlAgilityPack的灵活性也是非常好的。例如将上面代码中的foreach循环体改成Response.Write(anchor.OuterHtml + "<br/>");则输出的是超链接本身而非内联文本。甚至可以修改超链接本身：

[csharp] view plain copy

foreach (HtmlNode anchor in anchors)
{
anchor.Attributes.Add("style", "color:red");
Response.Write(anchor.OuterHtml + "<br/>");
}

这样运行后你看到的是红色的超链接。你可以几乎随心所欲地对HtmlAgilityPack解析生成的Dom节点树上的节点操作，就像你拥有一颗自己的圣诞树，可以随意对其修整剪裁。这也是正则方法无法相提并论的。HtmlAgilityPack对源文本的结构要求非常宽松，即使没有根元素也一样正常使用，这同要求非常严格的XmlDocument完全不同。熟练掌握HtmlAgilityPack解析html文档的关键在于熟悉Xpath表达式语法，好在Xpath的语法入门比较简单，只需花费数个小时基本就可满足大部分应用。依托于Dom高效而通用的结构，Xpath强大而简练的语法，HtmlAgilityPack真可以称为“解析html和采集网页的神兵利器”。

时间： 2024-10-15 01:15:14

解析html和采集网页的神兵利器

解析html和采集网页的神兵利器的相关文章

java微信开发API解析（七）-网页开发-微信网页授权

前嗅ForeSpider教程：采集网页链接/源码/时间/重定向地址等

不需要编程，你也可以灵活采集网页数据

能Ping通，能DNS解析，不能打开网页(登陆QQ等)的解决办法

采集网页数据生成到静态模板newslist.html文件中（正则表达式）

如何在#神箭手云爬虫#上采集网页数据并发布到WeCenter

如何采集网页数据并发布到Discuz

Shell 命令 curl 和 wget 使用代理采集网页的总结大全

java基础71 XML解析相关知识点（网页知识）