cheerio笔记

不会的东西，再简单都是难；会的东西，再难都是简单。

给自己写的，写的通俗易懂。

cheerio：在node服务端，解析网页，是jquery的核心，去除了DOM中不一致的地方。

先获得网页的源码，再通过cheerio解析，可以迅速提出想要的字段。获得源码有点麻烦。

Load：

//使用的html字段<ul id="fruits">   <li class="apple">Apple</li>   <li class="orange">Orange</li>   <li class="pear">Pear</li> </ul>//加载需要处理的字段，标准写法。var cheerio = require(‘cheerio‘),
$ = cheerio.load(‘<ul id="fruits">...</ul>‘, {　　ignoreWhitespace: false,    //不 忽略空格　　xmlMode: false,      //不使用xml模式　　lowerCaseTags: false        //不区分大小写});

Selectors：

$(selectior,[context],[root])：选择器在 Context 范围内搜索，Context又在Root范围内搜索。

属性：

.attr(name,value)：在匹配的元素中只能获得第一元素的属性。如果设置一个属性的值为null，则移除这个属性。

值：

.val([value]):获得和修改input,select,textarea的value

移除属性：

.removeAttr(name)

.hasClass( className )：检查匹配的元素是否有给出的类名

.addClass(className)：给元素加类

.removeClass([className])

.is(selector)：任何元素匹配selector就返回true

.is(function(index))：使用判定函数，判定函数在选中的元素中执行，所以this指向当前的元素。

.find(selector)：查找

.parent([selector])

.parents([selector])：父，祖父及以上元素

.closest([selector])：匹配这个元素和DOM层级关系上的祖先元素。

.next()

.nextAll()

.prev()

.preAll()

.slice(start,[end])：获得选定范围内的元素

.siblings(selector)：获得被选择的同级元素，除去自己

.children(selector)

.each(function(index,element))

.map(function(index,element))：跟each好像呀？

.filter(selector)：迭代一个cheerio对象，得出匹配选择器或者是传进去的函数的元素。

.filter(function(index))：如果使用函数方法，这个函数在被选择的元素中执行，所以this指向当前元素

.first()

.last()

.eq(i)：i为负数，从最后一个元素向前数

改变DOM的结构：

.append(content,[content…])：在每个元素的子元素最后插入一个子元素

.prepend(content,[content,…])：在每个元素的子元素最前插入一个子元素

.after(content,[content,…])：在每个匹配元素之后插入一个元素

.before(content,[content,…])：

.remove( [selector] )：从DOM中去除匹配的元素和它们的子元素

.replaceWith( content )：

.empty()：移除子元素

.html( [htmlString] )：如果htmlString有内容的话，将会替代原来的HTML

.text( [textString] )：获得元素的text内容，包括子元素。如果textString被指定的话，每个元素的text内容都会被替换。

输出：

$.html([selector])：

.toArray():取得所有的在DOM元素，转化为数组

.clone():克隆cheerio对象

$.root

$.contains( container, contained ):查看cotained元素是否是container元素的子元

$.parseHTML( data [, context ] [, keepScripts ] ):context参数对chreeio没有意义，但是用来维护APi的兼容性

时间： 2025-01-04 11:26:41

cheerio笔记的相关文章

Nodejs学习笔记（十一）--- 数据采集器示例（request和cheerio）

目录写在之前示例示例要求采集器加入代理请求https 写在之后... 写在之前很多人都有做数据采集的需求,用不同的语言,不同的方式都能实现,我以前也用C#写过,主要还是发送各类请求和正则解析数据比较繁琐些,总体来说没啥不好的,就是效率要差一些, 用nodejs写采集程序还是比较有效率(可能也只是相对C#来说),今天主要用一个示例来说一下使用nodejs实现数据采集器,主要使用到request和cheerio. request :用于http请求 https://github.com

node.js 学习笔记

学习网站:http://www.nodejs.net/a/20141016/232139.html: 笔记:介绍如何利Javascript做为服务端脚本,通过Nodejs框架web开发.Nodejs框架是基于V8的引擎,是目前速度最快的Javascript引擎.chrome浏览器就基于V8,同时打开20-30个网页都很流畅.Nodejs标准的web开发框架Express,可以帮助我们迅速建立web站点,比起PHP的开发效率更高,而且学习曲线更低.非常适合小型网站,个性化网站,我们自己的Geek网

nodejs爬虫笔记(二)

node爬虫代理设置最近想爬取YouTube上面的视频信息,利用nodejs爬虫笔记(一)的方法,代码和错误如下 var request = require('request'); var cheerio = require('cheerio');**** var url = 'https://www.youtube.com '; function crawler(url,callback){ var list = []; request(url,function(err,res){ if(e

系列文章--Node.js学习笔记系列

Node.js学习笔记系列总索引 Nodejs学习笔记(一)--- 简介及安装Node.js开发环境 Nodejs学习笔记(二)--- 事件模块 Nodejs学习笔记(三)--- 模块 Nodejs学习笔记(四)--- 与MySQL交互(felixge/node-mysql) Nodejs学习笔记(五)--- Express安装入门与模版引擎ejs Nodejs学习笔记(六)--- Node.js + Express 构建网站预备知识 Nodejs学习笔记(七)--- Node.js + Exp

nodejs爬虫笔记（三）

思路:通过笔记(二)中代理的设置,已经可以对YouTube的信息进行爬取了,这几天想着爬取网站下的视频信息.通过分析YouTube,可以从订阅号入手,先选择几个订阅号,然后爬取订阅号里面的视频分类,之后进入到每个分类下的视频列表,最后在具体到每一个视频,获取需要的信息.以订阅号YouTube 电影为例. 一.爬取YouTube 电影里面的视频分类列表打开订阅号,我们可以发现订阅号下有许多视频分类如下图所示,接下来可以解析该订阅号信息,把视频分类的URL和名称爬取下来. 接下来我们通过浏览器点击

nodejs爬虫笔记(五)---利用nightmare模拟点击下一页

目标以腾讯滚动新闻为例,利用nightmare模拟点击下一页,爬取所有页面的信息.首先得感谢node社区godghdai的帮助,开始接触不太熟悉nightmare,感觉很高大上,自己写代码的时候问题也很多,多亏大神的指点. 一.选择模拟的原因腾讯滚动新闻,是每六十秒更新一次,而且有下一页.要是直接获取页面的话得一页一页的获取,不太方便,又想到了找数据接口,然后通过请求得到数据,结果腾讯新闻的数据接口是加密的,这种想法又泡汤了.因而想到笔记(四)中模拟加载更多的模块,看利用nightmare这

【安全牛学习笔记】

弱点扫描 ╋━━━━━━━━━━━━━━━━━━━━╋ ┃发现弱点 ┃ ┃发现漏洞 ┃ ┃ 基于端口五福扫描结果版本信息(速度慢)┃ ┃ 搜索已公开的漏洞数据库(数量大) ┃ ┃ 使用弱点扫描器实现漏洞管理 ┃ ╋━━━━━━━━━━━━━━━━━━━━╋ [email protected]:~# searchsploit Usage:

51CTO持续更新《通哥的运维笔记》

<通哥的运维笔记>将持续在51CTO网站更新,希望大家多多关注.互相学习,后期,我将会退出<通哥的运维笔记>系列视频教程,希望带给大家最大的收获,帮助大家更好的学习.进步.<通哥的运维笔记>主要从linux系统管理.虚拟化.cloudstack云平台以及网络管理之CCNA.CCNP.CCIE,等等方面深入讲解.

WPF笔记整理 - Bitmap和BitmapImage

项目中有图片处理的逻辑,因此要用到Bitmap.而WPF加载的一般都是BitmapImage.这里就需要将BitmapImage转成Bitmap 1. 图片的路径要用这样的,假设图片在project下的Images目录,文件名XXImage.png. pack://application:,,,/xxx;component/Images/XXImage.png 2. 代码: Bitmap bmp = null; var image = new BitmapImage(new Uri(this.X