仿教程小爬虫抓取imooc数据

慕课网的nodejs教程：http://www.imooc.com/learn/348

这人讲的很赞，特别是在事件驱动这点上，耳目一新。

视频略老，所以demo有些过时了，摸索着写了一个自己的小程序。

比较痛苦的是最近半年几乎没写过jQuery，不少用法实在想不起来，好在翻着API也不是什么问题。

首先，npm install cheerio，可以认为cheerio这货就是nodejs版本的jQuery，用法应该完全一致。

然后就可以愉快的敲代码了：

var http = require(‘http‘)
var cheerio = require(‘cheerio‘)

var url = ‘http://www.imooc.com/learn/348‘

function filterChapters(html) {
    var $ = cheerio.load(html)

    var chapters = $(‘div.chapter‘)

    var courseData = []

    chapters.each(function () {
        var chapter=$(this) // $(this)的用法可以让回调方法省略参数
        // var chapterTitle = chapter.find(‘strong‘).text().trim()
        var chapterTitle = chapter.find(‘strong‘).contents().filter(function() { return this.nodeType === 3; }).text().trim();
        var videos=chapter.find(‘ul‘).children()

        var chapterData = { // 定义一个json以接收数据
            chapterTitle : chapterTitle,
            videos:[]
        }

        videos.each(function () {
            var video=$(this).find(‘a‘)
            var temp=video.text().trim()
            // var temp=video.contents().filter(function() { return this.nodeType === 3; }).text().trim();
            var arr = temp.split(‘\n‘) // 多层标签的文本都拼到一起了，要拆开，取用需要的值
            var videoTitle = arr[0].trim() + ‘ ‘ +arr[1].trim()
            var id=video.attr(‘href‘).split(‘video/‘)[1].trim()

            chapterData.videos.push({ // 填写数据
                title : videoTitle,
                id : id
            })
        })

        courseData.push(chapterData)
    })

    return courseData
}

// 输出函数

function printCourseData(courseData) {
    courseData.forEach(function (item) {
        var chapterTitle = item.chapterTitle

        console.log(chapterTitle )

        item.videos.forEach(function (video) {
            console.log(‘---【‘+video.id + ‘】 ‘ + video.title.trim() )
        })
    })
}
// 拿到源码，调用方法进行解析及输出
http.get(url, function(res){
    var html = ‘‘

    res.on(‘data‘, function (data) {
        html+=data
    })

    res.on(‘end‘,function(){
        var courseData = filterChapters(html)
        printCourseData(courseData)
    })
}).on(‘error‘, function () {
    console.log(‘获取课程数据出错了‘)
})

时间： 2024-12-15 06:52:24

仿教程小爬虫抓取imooc数据的相关文章

Python小爬虫——抓取豆瓣电影Top250数据

写LeetCode太累了,偶尔练习一下Python,写个小爬虫玩一玩~ 确定URL格式先找到豆瓣电影TOP250任意一页URL地址的格式,如第一页为:https://movie.douban.com/top250?start=0&filter=,分析该地址: https:// 代表资源传输协议使用https协议: movie.douban.com/top250 是豆瓣的二级域名,指向豆瓣服务器: /top250 是服务器的某个资源: start=0&filter= 是该URL的两个参数,

Python爬虫-抓取网页数据并解析，写入本地文件

之前没学过Python,最近因一些个人需求,需要写个小爬虫,于是就搜罗了一批资料,看了一些别人写的代码,现在记录一下学习时爬过的坑. 如果您是从没有接触过Python的新手,又想迅速用Python写出一个爬虫,那么这篇文章比较适合你. 首先,我通过: https://mp.weixin.qq.com/s/ET9HP2n3905PxBy4ZLmZNw 找到了一份参考资料,它实现的功能是:爬取当当网Top 500本五星好评书籍源代码可以在Github上找到: https://github.com/

nodejs爬虫抓取数据 -- html 实体编码处理办法

cheerio DOM化并解析的时候 1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现 2.如果使用了 .html()方法,则很多情况下都会出现,这时,可能就需要转义一番了类似这些因为需要作数据存储,所有需要转换 Халк крушит. Новый способ исполнен 大多数都是&#(x)?\w+的格式所以就用正则转换一番 var body = ....//这里就是请求后获得的返回数据,或者那些 .html()后获取的 //一般可以先转换为标准uni

iOS开发——网络实用技术OC篇&网络爬虫－使用青花瓷抓取网络数据

网络爬虫-使用青花瓷抓取网络数据由于最近在研究网络爬虫相关技术,刚好看到一篇的的搬了过来! 望谅解..... 写本文的契机主要是前段时间有次用青花瓷抓包有一步忘了,在网上查了半天也没找到写的完整的教程,于是待问题解决后抽时间截了图,自己写一遍封存在博客园中以便以后随时查阅. charles又名青花瓷,在iOS开发中的抓包中具有重要作用.最大的三点用处,一就是拦截别人软件的发送的请求和后端接口,练习开发.二是自己后端返回的response拦截修改后再接收以达到测试临界数据的作用.三写脚本重复拦截

iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据

网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一片文章已经介绍我们可以使用两个方式来抓取网络数据实现网络爬虫,并且大致介绍了一下怎么使用正则表达式去实现数据的抓取由于笔者曾经学过一段时间java和android相关的技术,今天就讲讲怎么使用java去抓取网络数据,关于Python有机会等笔者好好研究一下再来分享,但其实会一种就可以,除非你的需求

iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据

【iOS】正则表达式抓取网页数据制作小词典

应用程序不一定要自己去提供数据,有现成的数据学会去用才好. 网络很大,各种搜索引擎每天到处爬.本文通过正则表达式抓取网站的数据来做一个小词典. 一.正则表达式的使用 1. 确定匹配方案,即pattern 2. 用pattern实例化NSRegularExpression 3. 用匹配方法开始匹配. 匹配一次:可以使用firstMatch方法匹配多次:可以用matchs方法正则表达式对照表:(在网上找到了一个很不错的表,正则表达式各个语言通用) http://www.jb51.net/shou

iOS开发——网络使用技术OC篇&网络爬虫－使用正则表达式抓取网络数据

网络爬虫-使用正则表达式抓取网络数据关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看看网络爬虫的基本原理: 一个通用的网络爬虫的框架如图所示: 网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL: 2.将这些URL放入待抓取URL队列: 3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中.

爬虫抓取表格中的数据

有时候因为某些需求需要爬取某个网页中某个表格里的数据,这时候如果这个页面只有这一个表格的时候,那么抓取就比较容易了,但是当这个页面中有大量的表格的时候,再使用之前的方法,就会发现虽然也能抓取到要的数据,但是还有一大堆冗余. 这时候,就可以使用下面这种方法就以这个网页里的表格为例 #coding:utf-8 import re import urllib2 url='http://58921.com/' header={'User-Agent':'Mozilla/5.0 (Windows NT

仿教程 小爬虫抓取imooc数据

仿教程 小爬虫抓取imooc数据的相关文章

仿教程小爬虫抓取imooc数据

仿教程小爬虫抓取imooc数据的相关文章