js爬虫心得

第一步:分析要爬的网站:包括是否需要登陆、点击下一页的网址变化、下拉刷新的网址变化等等

第二步:根据第一步的分析,想好爬这个网站的思路

第三步:爬好所需的内容 保存

爬虫过程中用到的一些包:

(1)const request =  require(‘superagent‘); // 处理get post put delete head 请求  轻量接http请求库,模仿浏览器登陆

(2)const cheerio = require(‘cheerio‘); // 加载html(3)const fs = require(‘fs‘); // 加载文件系统模块 将数据存到一个文件中的时候会用到

fs.writeFile(‘saveFiles/zybl.txt‘, content, (error1) => { // 将文件存起来 文件路径 要存的内容 错误             if (error1) throw error1;             // console.log(‘ text save ‘);         });

(4)const fs      = require(‘graceful-fs‘); // 将文件存为xlse

const writeStream = fs.createWriteStream(‘saveFiles/trader.xlsx‘); //新建xlsx文件

writeStream.write(title);//像slsx里面写入内容

(5)const Promise = require(‘bluebird‘); //异步处理

(6)const Nightmare = require(‘nightmare‘);//一个高层次的浏览器自动化图书馆  先要安装phantomjs 然后在装nightmare 

(7)const co        = require(‘co‘);

爬虫的相关思路:

(1)获取首页面的所需内容(2)在首页面的所有内容里面获取所需内容的链接(3)将(2)里面的链接存到一个list里面去(3)新写一个function,采用.pop()方法,用来取通过链接得到的新的内容(4)判断list.length是否大于0,(5)如果不是,开始爬子页面 并且调用该方法(6)如果list的长度为0,就说明这一页爬完了,开始下一页,则将url改变(7)重复(2)(3)(4)(5)(6)直至所有页面爬完
时间: 2024-10-10 04:42:34

js爬虫心得的相关文章

Node.js爬虫-爬取慕课网课程信息

第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行 这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让我们方便的操作HTML,就像是用jQ一样 开始前,记得 npm install cheerio 为了能够并发的进行爬取,用到了Promise对象 //接受一个url爬取整个网页,返回一个Promise对象 function getPageAsync(url){ return new Promise(

Node.js abaike图片批量下载Node.js爬虫1.00版

这个与前作的差别在于地址的不规律性,需要找到下一页的地址再爬过去找. //====================================================== // abaike图片批量下载Node.js爬虫1.00 // 2017年11月9日 //====================================================== // 内置http模块 var http=require("http"); // 内置文件处理模块,用于创

Node.js aitaotu图片批量下载Node.js爬虫1.00版

即使是https网页,解析的方式也不是一致的,需要多试试. 代码: //====================================================== // aitaotu图片批量下载Node.js爬虫1.00 // 2017年11月14日 //====================================================== // 内置http模块 var https=require("https"); // 内置文件处理模块,

Node.js 爬虫初探

前言 在学习慕课网视频和Cnode新手入门接触到爬虫,说是爬虫初探,其实并没有用到爬虫相关第三方类库,主要用了node.js基础模块http.网页分析工具cherrio. 使用http直接获取url路径对应网页资源,然后使用cherrio分析. 这里我主要是把慕课网教学视频提供的案例自己敲了一边,加深理解.在coding的过程中,我第一次把jq获取后的对象直接用forEach遍历,直接报错,是因为jq没有对应的这个方法,只有js数组可以调用. 知识点 ①:superagent抓去网页工具.我暂时

Node.js 爬虫批量下载美剧 from 人人影视 HR-HDTV

这两天发现了一个叫看知乎的网站,是知乎大牛苏莉安做的,其中爬虫使用的 Node.js.这里就针对上一篇博客中的美剧小爬虫,改用 nodejs 进行实现一下,体验一下强大的 Node.js. 如果之前没有用过 JavaScript,不妨到 http://www.codecademy.com/  做一下 JavaScript 和 jQuery 的入门练习,快速熟悉一下基本语法,有其他语言基础一天时间足够.有基本的了解后,就会发现 JavaScript 的两大特点: 使用基于原型(prototype)

一个js爬虫

1. 第一个demo 2. configs详解——之成员 3. configs详解——之field 4. configs详解——之site, page和console 5. configs详解——之回调函数 6. 爬虫进阶开发——之内置函数 7. 爬虫进阶开发——之模板化 8. 爬虫进阶开发——之图片云托管 9. 爬虫进阶开发——之自动IP代理 10. 爬虫进阶开发——之验证码识别 11. 爬虫进阶开发——之自动JS渲染 12. 爬虫进阶开发——之技巧篇 13. 两个完整demo 14. 开发神

Node.js学习心得

最近花了三四周的时间学习了Node.js ,感觉Node.js在学习过程中和我大学所学的专业方向.NET在学习方法上有好多的相似之处,下面就将我学习的心得体会以及参考的资料总结归纳如下,希望对于刚入门的网友有些帮助吧!       一.Node.js简介 1.1 简介 Node.js是一个让JavaScript运行在服务器端的开发平台,它让JavaScript的触角伸到了服务器端,可以与PHP.JSP.Python.Ruby平起平坐. 但Node似乎有点不同: ● Node.js不是一种独立的语

Node.js 爬虫,自动化抓取文章标题和正文

持续进行中... 目标: 动态User-Agent模拟浏览器 √ 支持Proxy设置,避免被服务器端拒绝 √ 支持多核模式,发挥多核CPU性能 √ 支持核内并发模式 √ 自动解码非英文站点,避免乱码出现 √ 自动队列管理,持续化PUSH √ 自动抓取文章标题和正文 √ 性能优化 测试用例,自动化测试 我的测试环境: 9 台安装 ElasticSearch 1.3.2 的 centos,48G内存,8核 3 台 Node.js v0.11.14 的 centos,16G内存,8核,用作爬虫 3 台

node.js爬虫杭州房产销售及数据可视化

现在年轻人到25岁+,总的要考虑买房结婚的问题,2016年的一波房价大涨,小伙伴们纷纷表示再也买不起上海的房产了,博主也得考虑考虑未来的发展了,思考了很久,决定去杭州工作.买房.定居.生活,之前去过很多次杭州,很喜欢这个城市,于是例行每天晚上都要花一点时间关注杭州的房产销售情况,以及价格,起初我每天都在杭州的本地论坛,透明售房网上查看,每一天的房产销售数据,但是无奈博主不是杭州本地人,看了网页上展示的很多楼盘,但是我不知道都在什么地方啊,于是乎,看到价格合适的,总是到高德地图去搜索地理位置,每次