HTML解析利器-HtmlAgility学习

HtmlAgility是一个开源的Html解析库，据说是C#版的JQuery，功能非常强大。

该篇学习它的解析功能，还可以模拟用户请求,创建html,设置代理等等，暂先不研究。

----------------------------------------------------------------------------

1.简单例子

using System;

using System.Collections.Generic;

using System.Linq;

using System.Text;

using System.Net;
using HtmlAgilityPack;
namespace ConsoleApplication1

{

    class Program

    {

        static void Main(string[] args)

        {

            HtmlWeb webClient = new HtmlWeb();

            HtmlDocument doc = webClient.Load("http://www.baidu.com");

            var rootNode = doc.DocumentNode;

            HtmlNodeCollection categoryNodeList = rootNode.SelectNodes("//html[1]/body[1]");

            foreach (var item in categoryNodeList)

            {

                Console.WriteLine("item: " + item.Name);

            }
Console.Read();

        }

    }

}

算是第一个Hellow world，扒的百度页面。

----------------------------------------------------------------------------

2.读取

那么，如果是载入本地的Html或者直接读流，字符串。可以这么做

HtmlDocument doc = new HtmlDocument();

doc.Load(@"D:\xxx.mht", Encoding.UTF8, false);

public void LoadHtml(string html);//直接读字符串化的html

public void Load(Stream stream);//流

public void Load(string path);//本地路径

HtmlDocumen其本身也提供检测编码的方法。

HtmlWeb主要是自动检测编码，如果要自定义编码可以改其中属性。OverrideEncoding, AutoDetectEncoding。而HtmlDocument对编码的操作反而不一样，指定在参数中，估计是自动检测编码已经很强大了把，很少要自己指定。。。。

----------------------------------------------------------------------------

3.节点选择

rootNode.SelectNodes

rootNode.SelectSingleNode

选择节点和选择单个节点。

用SelectNodes为例，看一下参数

rootNode.SelectNodes("//html[1]/body[1]");

"//"双斜杠表示从根节点查找所有子节点

"/"单斜杠表示只查找第一层子节点

"./"点斜杠表示从当前节点开始查找

[]中括号中的代表相同名字的子节点索引。

var resultList = rootNode.SelectNodes("//html[1]/body[1]/div[1]/div[position()<5]");//取前4个元素

resultList = rootNode.SelectNodes("//html[1]/body[1]/div[1]/div[last()]");//取最后1个元素

resultList = rootNode.SelectNodes("//html[1]/body[1]/div[1]/div[@id]");//取所有有id属性的元素

resultList = rootNode.SelectNodes("//html[1]/body[1]/div[1]/div[@id=‘head‘]");//取属性id值为head的元素

更多属性可以在W3SCHOOL查看http://www.w3school.com.cn/xpath/xpath_functions.asp

取属性

doc.Attributes["id"];

取元素

doc.GetElementbyId("id");

HTML解析利器-HtmlAgility学习,布布扣,bubuko.com

时间： 2024-10-07 11:06:11

HTML解析利器-HtmlAgility学习的相关文章

.NET Core HtmlAgilityPack HTML解析利器

最近学习.NET Core ,想把自己之前的一个项目升级到 .NET Core. 发现HtmlAgilityPack 没法进行引用,遂自己做了些修改,可以运行在 .NET Core 中.现在分享出来,也是为 .NET Core 做一些贡献. .NET Core版 HtmlAgilityPack HTML解析利器,目前是 HtmlAgilityPack Core RC2 HtmlAgilityPack 介绍 HtmlAgilityPack是一个基于.Net的.第三方免费开源的微型类库,主要用于在

HTML解析利器HtmlAgilityPack

在以前的项目中周公曾有解析HTML的情况,当时是采用正则表达式一步步将无关的HTML注释及JS代码部分删除掉,然后再用正则表达式找出需要提取的部分,可以说使用正则表达式来做是一个比较繁琐的过程,特别是对于正则表达式不是很熟悉或者要处理的HTML很复杂的情况下.前一阵子周公还是通过这个办法将http://wz.csdn.net/zhoufoxcn上保存的网址导入到http://cang.baidu.com,本来还想将周公博客上的文章好好整理一下,但是考虑到使用正则真的是很繁琐也很麻烦,所以就一直没

Spring?IOC设计原理解析:本文乃学习整理参考而来

Spring IOC设计原理解析:本文乃学习整理参考而来一. 什么是Ioc/DI? 二. Spring IOC体系结构 (1) BeanFactory (2) BeanDefinition 三. IoC容器的初始化 1. XmlBeanFactory(屌丝IOC)的整个流程 2. FileSystemXmlApplicationContext 的IOC容器流程 1.高富帅IOC解剖 2. 设置资源加载器和资源定位 3.AbstractApplicationContext的refresh函数载入

在MVC中使用dotless后台动态解析LESSCSS的学习笔记

通过学习LessCSS,我们知道,Less是需要通过编译才能生成 .css 文件,主要使用三种方式进行编译: 1)使用第三方编译工具,在项目发布前编译好放在项目中. 2)在浏览器端解析执行,需要引用 less.js . 3)使用第三方程序集在后台动态解析,例如:在.net平台下的dotless. 这篇随笔记录了如何在.net MVC项目中使用dotless动态解析less. 具体实现 1.创建MVC4 Web的基本项目在 Content 文件夹中添加 lesses 文件夹,并在该文件夹下添加自

c#蜘蛛程序之HTML解析利器HtmlAgilityPack

在以前的项目中对HTML解析的,是采用正则表达式一步步将无关的HTML注释及JS代码部分删除掉,然后再用正则表达式找出需要提取的部分,可以说使用正则表达式来做是一个比较繁琐的过程,特别是对于正则表达式不是很熟悉或者要处理的HTML很复杂的情况下. 现在我们可以用一个.NET下的HTML解析类库HtmlAgilityPack.HtmlAgilityPack是一个支持用XPath来解析HTML的类库,学习了解HtmlAgilityPack的API和XPath非常必要. HtmlAgilityPack

最全解析如何正确学习JavaScript指南，必看！

划重点鉴于时不时,有同学私信问我:怎么学前端的问题.这里统一回复一下,如下次再遇到问我此问题同学,就直接把本文链接地址发给你了. "前端怎么学"应该因人而异,别人的方法未必适合自己.就说说我的学习方法吧:我把大部分时间放在学习js上了.因为这个js的学习曲线,先平后陡.项目实践和练习啥的,我不说了,主要说下工作之外的时间利用问题.我是怎么学的呢,看书,分析源码.个人这几天统计了一下,前端书籍目前看了50多本吧,大部分都是js的.市面上的书基本,差不多都看过. 第一个问题:看书有啥好处

C#HTML解析利器HtmlAgilityPack

HtmlAgilityPack是一个开源的解析HTML元素的类库,最大的特点是可以通过XPath来解析HMTL,如果您以前用C#操作过XML,那么使用起HtmlAgilityPack也会得心应手.目前最新版本为1.4.6,下载地址如下:http://htmlagilitypack.codeplex.com/ 目前稳定的版本是1.4.6,上一次更新还是2012年,所以很稳定,基本功能全面,也没必要更新了. 提到HtmlAgilityPack,就必须要介绍一个辅助工具,不知道其他人在使用的时候,是如

Scala并发编程实战初体验及其在Spark源码中的应用解析之Scala学习笔记-56

package com.leegh.actor import scala.actors.Actor /** * @author Guohui Li */object First_Actor extends Actor { def act() { for (i <- 1 to 10) { println("Step : " + i) println(Thread.currentThread().getName) Thread.sleep(2000) } }} object Seco

【jar包】JSON之解析利器GSON--【gson-2.2.4.jar】

Gson(又称Google Gson)是Google公司发布的一个开放源代码的Java库,主要用途为串行化Java对象为JSON字符串,或反串行化JSON字符串成Java对象.GSON核心jar包不到1M,非常精简,但提供的功能无疑是非常强大的,如果使用JDK自带的JSON解析API,使用起来相对比较繁琐一点,而且代码量较多. 下面通过一个表格来了解一下,GSON目前的发展状况初始版本 2008年5月22日最新版本(稳定版本) 2.2.4/2013年5月13日:2个月前编程语言 Java