Nodejs 爬虫简单编写

nodejs 爬虫原理，先用request请求页面内容，把内容获取到并iconv-lite设置编码格式，再用cheerio进行类似dom操作合并内容，转换写入文件中

1）获取单页面数据：

var fs = require(‘fs‘)
var request = require(‘request‘)
var iconvLite = require(‘iconv-lite‘)
var cheerio = require(‘cheerio‘)

//请求
request({
    url:‘https://github.com/Zion0707‘, //要抓取的页面
    encoding:null
},function(err,res,body){
    //设置编码格式
    var html = iconvLite.decode(body,‘utf8‘)
    //转换成dom操作
    var $ = cheerio.load(html)
    //类似jq操作
    var title = $(‘title‘).text();
    var json = {
        title : title
    }

    //转成json字符串对象写入到文件中
    var r = JSON.stringify(json)
    fs.open(‘./data.json‘,‘w‘,function(err,el){
        fs.write(el , r ,function(err,suc){
            console.log(suc,‘success‘)
        })
    })

})

2）批量获取多页面数据：

var fs = require(‘fs‘)
var async = require(‘async‘)
var request = require(‘request‘)
var iconvLite = require(‘iconv-lite‘)
var cheerio = require(‘cheerio‘)

//获取更多url组成数组
function getMore(num){
    var arr = []
    for(var i = 0 ; i < num ; i++ ){
        arr.push( ‘http://www.techweb.com.cn/tele/2017-02-23/2491253_‘+(i+1)+‘.shtml‘ )
    }
    return arr;
}
//异步每一次获取3条，防止ip被封
async.mapLimit( getMore(7) , 3 ,function(url,callback){
    request({
        url:url, //读取数组里的每一条url
        encoding:null
    },function(err,res,body){

        var html = iconvLite.decode(body,‘utf8‘)
        var $ = cheerio.load(html)
        //获取每一页的一张图片
        var result = $(‘img‘).eq(1).attr(‘src‘)
        //成功之后callback 才能进行下一次获取
        callback( null , url+result )

    })
},function(err,result){
    //返回结果
    console.log(result)
})

时间： 2024-12-14 04:41:38

Nodejs 爬虫简单编写的相关文章

简单实现nodejs爬虫工具

约30行代码实现一个简单nodejs爬虫工具,定时抓取网页数据. 使用npm模块 request---简单http请求客户端.(轻量级) fs---nodejs文件模块. index.js var request = require('request'); var fs = require("fs"); var JJurl = "https://recommender-api-ms.juejin.im/v1/get_recommended_entry?suid=6bYFY7I

【nodeJS爬虫】前端爬虫系列

写这篇 blog 其实一开始我是拒绝的,因为爬虫爬的就是cnblog博客园.搞不好编辑看到了就把我的账号给封了:). 言归正传,前端同学可能向来对爬虫不是很感冒,觉得爬虫需要用偏后端的语言,诸如 php , python 等.当然这是在 nodejs 前了,nodejs 的出现,使得 Javascript 也可以用来写爬虫了.由于 nodejs 强大的异步特性,让我们可以轻松以异步高并发去爬取网站,当然这里的轻松指的是 cpu 的开销. 要读懂本文,其实只需要有能看懂 Javascript 及

Nodejs爬虫进阶教程之异步并发控制

Nodejs爬虫进阶教程之异步并发控制之前写了个现在看来很不完美的小爬虫,很多地方没有处理好,比如说在知乎点开一个问题的时候,它的所有回答并不是全部加载好了的,当你拉到回答的尾部时,点击加载更多,回答才会再加载一部分,所以说如果直接发送一个问题的请求链接,取得的页面是不完整的.还有就是我们通过发送链接下载图片的时候,是一张一张来下的,如果图片数量太多的话,真的是下到你睡完觉它还在下,而且我们用nodejs写的爬虫,却竟然没有用到nodejs最牛逼的异步并发的特性,太浪费了啊. 思路这次的的爬

NodeJS爬虫系统初探

NodeJS爬虫系统 NodeJS爬虫系统 0. 概论爬虫是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上是针对爬虫而做出的优化. robots.txt是一个文本文件,robots.txt是一个协议,不是一个命令.robots.txt是爬虫要查看的第一个文件.robots.txt文件告诉爬虫在服务器上什么文件是可以被查看的,搜索机器人就会按照该文件中的内容来确定访问的范围. 一般网站的robots.txt查找方法: 例如www.qq.com http://ww

docker & nodejs & mongodb Nodejs 应用简单的访问Mongodb 部署至Docker

docker & nodejs & mongodb Nodejs 应用简单的访问Mongodb 部署至Docker 原文地址 https://www.cnblogs.com/zhangyanbo/p/5851644.html (自己操作时遇到不能继续的情况,所以稍做了修改完善) 目录结构 . ├── app.js ├── controller ├── Dockerfile ├── model ├── node_modules ├── package.json ├── router └──

iOS开发——网络OC篇&网络爬虫简单介绍

网络爬虫简单介绍先来看看网络爬虫的基本原理: 一个通用的网络爬虫的框架如图所示: 网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL: 2.将这些URL放入待抓取URL队列: 3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中.此外,将这些URL放进已抓取URL队列. 4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环. 以下内容均为本人个人

简单编写Makefile

相信很多朋友都有过这样的经历,看着开源项目中好几页的makefile文件,不知所云.在日常学习和工作中,也有意无意的去回避makefile,能改就不写,能用ide就用ide.其实makefile并没有想象的那么难写,只要你明白了其中的原理,自己实践几次.你也可以自己写makefile,让别人对你头来羡慕的目光. 下面本人介绍一下自己的学习成果,初学阶段,欢迎大家多多指正.简单的说,makefile定义了一系列的规则来指定,哪些文件需要先编译,哪些文件需要后编译,哪些文件需要重新编译,甚至可以在m

nodejs爬虫笔记(二)

node爬虫代理设置最近想爬取YouTube上面的视频信息,利用nodejs爬虫笔记(一)的方法,代码和错误如下 var request = require('request'); var cheerio = require('cheerio');**** var url = 'https://www.youtube.com '; function crawler(url,callback){ var list = []; request(url,function(err,res){ if(e

NodeJS 爬虫爬取LOL英雄联盟的英雄信息，superagent+cheerio+async

1.模块使用 (1)superagent:Nodejs中的http请求库(每个语言都有无数个,java的okhttp,ios的afnetworking) (2)cheerio:Nodejs中的html解析库(每个语言基本都有..) (3)async:Nodejs中的同/异步并发函数执行库(这个非常牛,其他语言同类型的不多) 2.爬取内容多玩的英雄联盟英雄页面,通过解析页面内每个英雄的URL,然后并发请求英雄的详细数据,提取需要的数据得到结果 http://lol.duowan.com/hero