HtmlAgilityPack - 简介

 HtmlAgilityPack是.net下的一个HTML解析类库。支持用XPath来解析HTML。这个意义不小,为什么呢?因为对于页面上的元素的xpath某些强大的浏览器能够直接获取得到,并不需要手动写。节约了大半写正则表达式的时间,当然正则表达式有时候在进一步获取的时候还需要写,但是通过xpath解析之后,正则表达式已经要匹配的范围已经非常小了。而且,不用正则表达式在整个页面源代码上匹配,速度也会有提升。总而言之,通过该类库,先通过浏览器获取到xpath获取到节点内容然后再通过正则表达式匹配到所需要的内容,无论是开发速度,还是运行效率都有提升。

  HtmlAttribute  对应  Html元素的属性

  HtmlAttributeCollection  一个元素属性的集合,实现了IList<HtmlAttribute>, ICollection<HtmlAttribute>, IEnumerable<HtmlAttribute>, IEnumerable,都是集合的那一套东西,没有新东西。

  HtmlNode    对应  HTML节点,包括注释,文本,元素等

  HtmlNodeCollection  一个HtmlNode节点集合,实现了HtmlNodeCollection : IList<HtmlNode>, ICollection<HtmlNode>, IEnumerable<HtmlNode>, IEnumerable继承了这些东西就没什么需要说的了,都是集合的东西,没有新的东西。完全是集合那一套。

  HtmlNodeType  一个枚举  表示节点的类型,文档,注释,元素,文本。

  HtmlTextNode  对应Html文本节点,很简单的一个类,继承自HtmlNode。

  HtmlEntity   对应实体   实用程序类以替换特殊字符的实体,反之亦然

  HtmlParseError   表示文档在解析过程中发现的解析错误。

  还有一些其他的类,留到以后有用过的时候再补充。

HtmlAgilityPack - 简介,布布扣,bubuko.com

时间: 2024-08-02 01:48:09

HtmlAgilityPack - 简介的相关文章

C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)

转自原文C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子) 阅读目录 1.HtmlAgilityPack简介 2.XPath技术介绍与使用 3.采集天气网站案例 4.资源 第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流程和寻找潜在客户,最后在阿里巴巴找到了很多客户信息,非常全面,刚开始是手动复制到Excel,是真尼玛的累,虽然那个时候C#还很菜,也想能不能通过程序来批量获取(所以平时想法要多才好).几

.Net Core HTML解析利器之HtmlAgilityPack

一 .HtmlAgilityPack简介 这是一个敏捷的HTML解析器,它构建了一个读/写DOM,并支持简单的XPATH或XSLT(实际上,你实际上并不了解XPATH和XSLT来使用它,不必担心).它是一个.NET代码库,可以让您解析"出网"HTML文件.解析器非常宽容"现实世界"畸形的HTML.对象模型与提出的System.Xml非常相似,但对于HTML文档(或流)来说是非常相似的. 官网地址:http://html-agility-pack.net/ Git地址

我最优惠网系列(1)——HTML 解析类库HtmlAgilityPack

关于我最优惠 首先“我最优惠”是一个网站(www.wozuiyouhui.com),是一个汇总各大电商优惠商品的网站. 我是多年的网购重症用户,还记得第一次网购是在大二,花了50块钱在淘宝上买了一对所谓925纯银对戒,一直戴到两个月前才被婚戒替换,纹理早已被磨平.目前它被我用钻戒级的包装放在抽屉的最里面,代表着我最青春最活力时光的逝去. 作为资深网购er,购物前会查看很多导购网站,比如什么值得买,比如惠喵(原来叫留住你).但是这类导购网站实在太多了,并且更新速度也很快,所以早期我做了个抓取这些网

HTML 解析类库HtmlAgilityPack

1. HtmlAgilityPack简介 网站中首先遇到的问题是爬虫和解析HTML的问题,一般情况在获取页面少量信息的情况下,我们可以使用正则来精确匹配目标.不过本身正则表达式就比较复杂,同时正则表达式的精确程度很难拿捏,太精确和原网页耦合太严重,页面代码稍改动就会使正则无效:太宽泛的正则由可能会匹配目标过多.所以我们今天介绍的是通过解析HTML结构来获取目标的方式——HtmlAgilityPack. HtmlAgilityPack是一个解析HTML的类库,支持用XPath来解析HTML,可以像

黄聪:HtmlAgilityPack,C#实用的HTML解析类简介

HtmlAgilityPack是.net下的一个HTML解析类库.支持用XPath来解析HTML.这个意义不小,为什么呢?因为对于页面上的元素的xpath某些强大的浏览器能够直接获取得到,并不需要手动写.节约了大半写正则表达式的时间,当然正则表达式有时候在进一步获取的时候还需要写,但是通过xpath解析之后,正则表达式已经要匹配的范围已经非常小了.而且,不用正则表达式在整个页面源代码上匹配,速度也会有提升.总而言之,通过该类库,先通过浏览器获取到xpath获取到节点内容然后再通过正则表达式匹配到

HtmlAgilityPack组件

HtmlAgilityPack组件用于解析Html字符串,一个典型的应用场景是用于网页爬虫. 示例程序 using Common.Tools; using Datebase.Entity; using HtmlAgilityPack; using Http.Extension; using ServiceStack.Orm.Extension.Imples; using ServiceStack.Orm.Extension.Interface; using ServiceStack.OrmLit

Android网络通讯简介

网络通信应该包含三部分的内容:发送方.接收方.协议栈.发送方和接收方是参与通信的主体,协议栈是发送方和接收方进行通信的契约.按照服务类型,网络通信可分为面向连接和无连接的方式.面向连接是在通信前建立通信链路,而通信结束后释放该链路.无连接的方式则不需要在通信前建立通信连接,这种方式不保证传输的质量. Android提供了多种网络通信的方式,如Java中提供的网络编程,在Android中都提供了支持.Android中常用的网络编程方式如下: 针对TCP/IP协议的Socket和ServerSock

微信红包的架构设计简介

@来源于QCon某高可用架构群整理,整理朱玉华. 背景:有某个朋友在朋友圈咨询微信红包的架构,于是乎有了下面的文字(有误请提出,谢谢) 概况:2014年微信红包使用数据库硬抗整个流量,2015年使用cache抗流量. 微信的金额什么时候算? 答:微信金额是拆的时候实时算出来,不是预先分配的,采用的是纯内存计算,不需要预算空间存储.. 采取实时计算金额的考虑:预算需要占存储,实时效率很高,预算才效率低. 实时性:为什么明明抢到红包,点开后发现没有? 答:2014年的红包一点开就知道金额,分两次操作

JSON 简介

ylbtech-JSON: JSON 简介 JSON:JavaScript Object Notation(JavaScript 对象表示法) JSON是存储和交换文本信息的语法,类似 XML. JSON 比 XML 更小.更快.更易解析. JSON 实例 { "employee":[ {"firstName":"John","lastName":"Doe"}, {"firstName"