互联网金融爬虫怎么写-第四课 雪球网股票爬虫(单页面多数据)

Previous on  系列教程:

互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)

互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)

互联网金融爬虫怎么写-第三课 雪球网股票爬虫(ajax分析)

哈哈,我又来了,话说出教程就是这么任性,咱们乘热打铁,把上节课分析完成但是没写的代码给完成了!

工具要求:

教程中主要使用到了 1、神箭手云爬虫 框架  这个是爬虫的基础,2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确 3、Advanced REST Client用来模拟提交请求

基础知识:

本教程中主要用到了一些基础的js和xpath语法,如果对这两种语言不熟悉,可以提前先学习下,都很简单。

还记得我们在遥远的电商系列爬虫教程的第一课里提到具体写爬虫的几个步骤吗?我们沿着路径再来走一遍:

第一步:确定入口URL

暂且使用这个第一页的ajax的url链接:

http://xueqiu.com/stock/cata/stocklist.json?page=1&size=30&order=desc&orderby=percent&type=11%2C12

第二步:区分内容页和中间页

这次大家有点犯难了,虽然说每一个股票都有一个单独的页面,但是列表页的信息已经蛮多的了,光爬取列表页信息就已经够了,那怎么区分内容页和中间页呢?其实我们只需要将内容页和中间页的正则设置成一样的既可。如下:

http://xueqiu.com/stock/cata/stocklist\\.json\\?page=\\d+&size=30&order=desc&orderby=percent&type=11%2C12

在提醒大家一下,这里之所以转义符用了两个是因为在神箭手中,设置正则时,是字符串设置,需要对转义符再做一次转义。

第三步:内容页抽取规则

由于ajax返回的是json,而神箭手是支持jsonpath的提取方式的,因此提取规则就很简单了。不过这里要特殊注意的是,由于我们是在列表页抽取数据,因此数据最顶层相当于是一个列表,我们需要在顶层的field上设置一个列表数据的值。具体抽取规则如下:

fields: [

{

name:"stocks",

selector:"$.stocks",

selectorType:SelectorType.JsonPath,

repeated:true,

children:[

{

name:"code",

alias:"代码",

selector:"$.code",

selectorType:SelectorType.JsonPath,

},

{

name:"name",

alias:"名称",

selector:"$.name",

selectorType:SelectorType.JsonPath,

},

{

name:"current",

alias:"当前价格",

selector:"$.current",

selectorType:SelectorType.JsonPath,

},

{

name:"high",

alias:"最高价格",

selector:"$.high",

selectorType:SelectorType.JsonPath,

},

{

name:"low",

alias:"最低价格",

selector:"$.low",

selectorType:SelectorType.JsonPath,

}

]

}

]

我简单抽取了一些信息,其他信息都类似。

好了,主要的代码基本已经写好了,剩下的还需要解决两个问题

1.爬取前需要先访问一下首页获取cookie

2.虽然可以直接加入下一页,但是一共有多少页并不知道。

首先对于第一点,我们只需要在beforeCrawl回调中访问一下首页即可,神箭手会自动对cookie进行处理和保存,具体代码如下:

configs.beforeCrawl =function(site){

site.requestUrl("http://xueqiu.com");

};

好了,除了下一页基本已经没什么问题了,我们先测试一下看看效果:

数据已经出来了,没问题,第一页的数据都有了,那下一页怎么处理呢?我们有两个方案:

第一个方案:

我们可以看到json的返回值中有一个count字段,这个字段目测应该是总数据量的值,那没我们根据这个值,再加上单页数据条数,我们就可以判断总共有多少页了。

第二个方案:

我们先访问一下,假设页数很大,看看会雪球会返回什么,我们尝试访问第500页,可以看到返回值中的stocks是0个,那么我们可以根据是否有数据来判断需不需要加下一页。

两个方案各有利弊,我们这里选择用第一个方案来处理,具体代码如下:

configs.onProcessHelperPage =function(page, content, site){

if(page.url.indexOf("page=1&size=30") !== -1){

//如果是第一页

varresult = JSON.parse(page.raw);

varcount = result.count.count;

varpage_num = Math.ceil(count/30);

if(page_num > 1){

for(vari = 2;i<=page_num;i++){

site.addUrl("http://xueqiu.com/stock/cata/stocklist.json?page="+i+"&size=30&order=desc&orderby=percent&type=11%2C12");

}

}

}

};

好了,通过三课的艰苦奋战,终于完成了雪球沪深一览的征服。先看下跑出来的效果。

完整代码如下:

varconfigs = {

domains: ["xueqiu.com"],

scanUrls: ["http://xueqiu.com/stock/cata/stocklist.json?page=1&size=30&order=desc&orderby=percent&type=11%2C12"],

contentUrlRegexes: ["http://xueqiu.com/stock/cata/stocklist\\.json\\?page=\\d+&size=30&order=desc&orderby=percent&type=11%2C12"],

helperUrlRegexes: ["http://xueqiu.com/stock/cata/stocklist\\.json\\?page=\\d+&size=30&order=desc&orderby=percent&type=11%2C12"],

fields: [

{

name:"stocks",

selector:"$.stocks",

selectorType:SelectorType.JsonPath,

repeated:true,

children:[

{

name:"code",

alias:"代码",

selector:"$.code",

selectorType:SelectorType.JsonPath,

},

{

name:"name",

alias:"名称",

selector:"$.name",

selectorType:SelectorType.JsonPath,

},

{

name:"current",

alias:"当前价格",

selector:"$.current",

selectorType:SelectorType.JsonPath,

},

{

name:"high",

alias:"最高价格",

selector:"$.high",

selectorType:SelectorType.JsonPath,

},

{

name:"low",

alias:"最低价格",

selector:"$.low",

selectorType:SelectorType.JsonPath,

}

]

}

]

};

configs.onProcessHelperPage =function(page, content, site){

if(page.url.indexOf("page=1&size=30") !== -1){

//如果是第一页

varresult = JSON.parse(page.raw);

varcount = result.count.count;

varpage_num = Math.ceil(count/30);

if(page_num > 1){

for(vari = 2;i<=page_num;i++){

site.addUrl("http://xueqiu.com/stock/cata/stocklist.json?page="+i+"&size=30&order=desc&orderby=percent&type=11%2C12");

}

}

}

};

configs.beforeCrawl =function(site){

site.requestUrl("http://xueqiu.com");

};

varcrawler =newCrawler(configs);

crawler.start();

这样我们的雪球网股票爬虫就算大功告成,当然我们还可以把type的设置模板化。不过这个是一些高级的方法,我们会在后面的课程中再去详细描述

最后,对爬虫感兴趣的童鞋欢迎加qq群跟我讨论:566855261。

时间: 2024-09-29 15:35:04

互联网金融爬虫怎么写-第四课 雪球网股票爬虫(单页面多数据)的相关文章

互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)

系列教程: 互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门) 上一节课我们一起通过一个p2p网贷爬虫,深入了解了一下XPath以及其在最终实际使用中的写法.可以毫不夸张的说,对于写简单爬虫来说,最最重要的,就是使用好XPath,以及这一课要讲的正则表达式. 正则表达式,又称正规表示法.常规表示法(英语:Regular Expression,在代码中常简写为regex.regexp或RE) 正 则表达式几乎出现在每一个编程语言中,有着极其广泛的应用,比如做网页的时候,判断用户输入的是

互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)

相关教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取 手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染 手把手教你写电商爬虫-第五课 京东商品评论爬虫 一起来对付反爬虫 工具要求:教程中主要使用到了 1.神箭手云爬虫 框架  这个是爬虫的基础,2.Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确 基础知识:本教程

经济--力哥说理财(第二季)--互联网金融

互联网金融 其实我们打开任何一本理财教科书,或者上任何一堂正规的理财课程,都没有像力哥这样一上来先讲互联网金融的,肯定是先从股票.债券.基金.保险.房地产这样一点点展开的.因为互联网金融不是一个具体的投资品种,而是用互联网技术和互联网思维重构了传统金融的方方面面,你很难把它归为某一类产品. 余额宝开始说起,说到阿里的娱乐宝和招财宝,并分别带出了众筹和P2P,接着说到了比特币和票据理财,最后还扯上了天猫宝什么的……如果你仔细看过我之前所有节目的话,会发现互联网金融的触角早已触及到了银行.股票.债券

手把手教你写电商爬虫-第五课 京东商品评论爬虫 一起来对付反爬虫

系列教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取 手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染 四节课过去了,咱们在爬虫界也都算见过世面的人,现在再来一些什么ajax加载之类的小鱼小虾应该不在话下了,即使是淘宝这种大量的ajax,我们 祭上我们的核武器,也轻松应对了,这一课主要是来看看除了技术上的页面处理外,我们还会遇上更棘手的问题,就是反爬虫,当然现

互联网金融的前世、今生和未来-系列四(今生):百花齐放的互联网金融业态

互联网金融的前世.今生和未来--系列一:山雨欲来 互联网金融的前世.今生和未来-系列二(前世):金融与技术的首次亲密接触之金融电子化 互联网金融的前世.今生和未来-系列三(今生):一场跨界的战争 今生:金融与互联网的深度融合--互联网金融 1.日益便捷的移动支付 移动支付指依托无线通信和移动互联网技术,通过智能手机或其他移动终端设备实现的电子支付,主要分为近场支付和远程支付两种方式.近场支付指通过近场支付终端向商家进行非接触式支付,交易数据在现场通过手机射频.红外.蓝牙以及NFC技术(主流技术)

【Linux探索之旅】第四部分第四课:分析网络,隔离防火

内容简介 1.第四部分第四课:分析网络,隔离防火 2.第四部分第五课:源码编译,安装便利 分析网络,隔离防火 俗语说得好:爱国爱家爱师妹!  防火防盗防师兄! 虽然说,Linux本身很安全,至少比Windows安全多了.你看Linux发行版哪有安装杀毒软件的,同样基于修改的Unix系统的苹果的Mac OS系统也几乎不需要装杀毒软件. 如果Windows不装个杀毒软件,简直不好意思出门跟别人打招呼(日常黑Windows任务完成 :P).开个玩笑啦,Windows是很好的系统,小编也使用Window

【Web探索之旅】第二部分第四课:数据库

内容简介 1.第二部分第四课:数据库 2.第二部分第五课预告:响应式网站 第二部分第四课:数据库 说到"数据库",顾名思义,是"数据的仓库"的意思. 所以数据库的一大作用就是储存数据咯. 为什么Web领域要有数据库呢? 数据库的英语是Database,简单来说可视为电子化的文件柜(存储电子文件的处所),用户可以对文件中的数据运行新增.截取.更新.删除等操作.它是以一定方式储存在一起.能为多个用户共享.具有尽可能小的冗余度.与应用程序彼此独立的数据集合. 关系型数据库

互联网金融高并发方案

小微金融.场景金融等新兴银行金融业务亟需一种新型的弹性架构来应对高并发.大流量的业务冲击,同时,要满足应用快速版本迭代升级.敏捷运维管理等需求.本文分享了BoCloud博云如何利用互联网应用架构与Docker容器技术帮助银行业应对“互联网+”挑战,建设基于PaaS平台的敏捷IT架构. 移动互联网渠道创新是传统企业无法也不能躲避的业务变革,无论是接入或者自建互联网渠道都需要回答如下问题:现在的IT架构能否应对互联网渠道创新业务的爆炸性冲击?什么样的IT架构才能够解决这个问题并具备应对未来需求的良好

第四课 文件系统(下)

====================第四课 文件系统(下)==================== 一.sync/fsync/fdatasync------------------------ 1. 大多数磁盘I/O都通过缓冲进行, 写入文件其实只是写入缓冲区,直到缓冲区满, 才将其排入写队列. 2. 延迟写降低了写操作的次数,提高了写操作的效率, 但可能导致磁盘文件与缓冲区数据不同步. 3. sync/fsync/fdatasync用于强制磁盘文件与缓冲区同步. 4. sync将所有被修改