互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)

相关教程:

手把手教你写电商爬虫-第一课 找个软柿子捏捏

手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫

手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取

手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染

手把手教你写电商爬虫-第五课 京东商品评论爬虫 一起来对付反爬虫

工具要求:教程中主要使用到了 1、神箭手云爬虫 框架  这个是爬虫的基础,2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确

基础知识:本教程中主要用到了一些基础的js和xpath语法,如果对这两种语言不熟悉,可以提前先学习下,都很简单

之前写了一个电商爬虫系列的文章,简单的给大家展示了一下爬虫从入门到进阶的路
径,但是作为一个永远走在时代前沿的科技工作者,我们从来都不能停止
在已有的成果上,所以带上你的chrome,拿起你的xpathhelper,打开你的神箭手,让我们再次踏上征战金融数据之旅吧。(上个系列相对难一
些,建议如果是初学者,先看这个系列的教程)

金融数据实在是价值大,维度多,来源广。我们到底从哪里入手呢?想来想去,就从前一段时间风云变幻的p2p网贷开始吧。同样,我们教程的一致风格就是先找个软柿子,上来不能用力过猛,逐渐培养自己的信心,等真正敌人来的时候,才不至于怯场害怕。

我们先去搜索一下p2p网站,随便找几个对比一下,选中了这个沪商财富

看着这样的收益率,心动了有木有,钱包坐不住了有木有,对余额宝投出鄙夷的目光了有木有

好了,闲话不说,这个系列课程吸取上个系列课程里进度太快的教训,给大家多讲一些
基础的知识,这一课就结合这个实例,重点讲讲xpath的编写和用
法。首先,大体来讲,XPath是一个相对简单的语言,甚至都不一定能称得上是一个语言,主要用处是用来标记XML的元素路径。由于html也是一种
xml,因此通常来说,在html中抽取某个元素是通过XPath来做的。XPath本身和Css有着很大的相似性,一般来说如果之前对Css有一定的了
解的话,XPath上手还是很简单的。具体的情况我在下面的课程中一边写,一边解释。


首先先确定列表页:

http://www.hushangcaifu.com/invest/main.html

http://www.hushangcaifu.com/invest/index2.html

http://www.hushangcaifu.com/invest/index3.html

基本上可以看到列表页除了第一页以外都有规律可寻,不过看到这个效果,通常我们最好精益求精一下,看下第一页是否也可以符合规律呢?

打开http://www.hushangcaifu.com/invest/index1.html 果然也是第一页,好了,很完美,总结成正则表达式:

http://www\\.hushangcaifu\\.com/invest/index\\d+\\.html

再看下详情页:

http://www.hushangcaifu.com/invest/a3939.html

http://www.hushangcaifu.com/invest/a3936.html

哈哈,小菜一碟,直接化解成正则:

http://www\\.hushangcaifu\\.com/invest/a\\d{4}\\.html

好了,最后最重要的就是提取页面元素了。我们打开详情页:

http://www.hushangcaifu.com/invest/a3870.html

一般来说,我们在我们想要提取的元素上右击,点击审查元素,得到如下结果:

首先看到yanh1147这个元素有没有整个网页唯一的class,id或者其他
属性,可以看到,在这个页面中没有,那么我们就往上找,上一级的p 标签也没有,咱们再往上找,在上一级是一个<div
class="product-content-top-left-top">,终于有class了,让我们祈祷这个class是唯一的
吧,ctrl+f打开搜索框,输入product-content-top-left-top,可以看到,找到了1 of
1,这个代表一共一个,这个是第一个,这就是我们希望的结果,好了,只用找到这一级既可,我们来构造整个的xpath,一般来说xpath我们并不会从最

顶层的html开始写,因为没有必要,因此我们要使用//,这个表示不知中间有多少的层级。接着我们直接把刚刚找到的这个div写上去,得到这个表达式:

//div[contains(@class,"product-content-top-left-top")]

对于class属性,我们通常会使用contains这样一个函数,防止一个元素有多个class的情况,另外因为class是一个属性,因此class前面需要加上@代表选择到该元素的一个属性。

现在我们已经选择到了我们要选择的元素的父元素的父元素,只要我们继续往下走两层既可。

//div[contains(@class,"product-content-top-left-top")]/p/span

由于我们要选择元素里的文字信息,而不是整个元素,我们需要指定是这个元素的文字:

//div[contains(@class,"product-content-top-left-top")]/p/span/text()

好了,这样我们就确定了我们爬取的借款用户的名称,我们打开xpathhelper验证一下有没有写错:

完美的结果。不过大家有的时候也需要注意,因为有的网页不代表你在一个内容页测试成功,在其他内容页也能成功,最好多测几个页面才是保险的。好了,其他的抽取项就不一一演示了,直接上最后的代码

var configs = {
    domains: ["www.hushangcaifu.com"],
    scanUrls: ["http://www.hushangcaifu.com/invest/index1.html"],
    contentUrlRegexes: ["http://www\\.hushangcaifu\\.com/invest/a\\d{4}\\.html"],
    helperUrlRegexes: ["http://www\\.hushangcaifu\\.com/invest/index\\d+\\.html"],
    fields: [
        {
            name: "title",
            selector: "//div[contains(@class,‘product-content-top-left-top‘)]/h3/text()",
            required: true 
        },
        {
            name: "user_name",
            selector: "//div[contains(@class,‘product-content-top-left-top‘)]/p/span/text()"
        },
        {
            name: "total_money",
            selector: "//div[contains(@class,‘product-content-top-left-middle‘)]/div[1]/h4/text()"
        },
        {
            name: "project_time",
            selector: "//div[contains(@class,‘product-content-top-left-middle‘)]/div[2]/h4/text()"
        },
        {
            name: "annual_return",
            selector: "//div[contains(@class,‘product-content-top-left-middle‘)]/div[3]/h4/text()"
        },
        {
            name: "return_method",
            selector: "//div[contains(@class,‘product-content-top-left-middle‘)]/div[4]/h4/text()"
        }
        
    ]
};

var crawler = new Crawler(configs);
crawler.start();

将代码粘贴到神箭手平台上既可运行。好了,看下运行结果:

对爬虫感兴趣的童鞋可以加qq群讨论:342953471。

时间: 2024-11-19 23:34:56

互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)的相关文章

互联网巨头介入P2P网贷的潜在风险

近年来,互联网金融可谓是风生水起,除了以余额宝为代表的"宝宝"类货币基金外,P2P网贷更是如火如荼,据网贷之家不完全统计,截止2014年10月,国内大大小小的P2P网贷平台接近1500家,如此强劲的发展势头也吸引了互联网巨头的参与,比如新浪微财富.搜狐搜易贷就是互联网巨头介入P2P网贷的典型案例.不过,随着P2P网贷频繁出事,这也给互联网巨头介入P2P网贷敲响了警钟. 中汇在线爆雷,新浪微财富中雷  近日,深圳P2P平台中汇在线"爆雷"一事在网贷圈炸开了锅.该平台待

P2P网贷平台风险分析报告

转载: 这是理财巴士(账号:LicaiBus)的原创文章,我们是创新理财思维传播者. 前言 自从发布过一期关于P2P网贷的视频之后,我就很少写关于网贷的文章了,原因是我的投资风格偏向保守,而网贷毕竟是新生事物,在监管方面还不够完善,很多细节还有待观察,风险较大,所以,我宁愿选择沉默. 但一直以来,用户的呼声是不绝于耳的,经常有网友询问,XX贷靠不靠谱.X贷网安不安全等等问题,我一概以"没有深入研究"为理由拒绝回答.其实,客观来讲,网贷还是非常有前景的投资方式. 深思熟虑之后,我打算用持

P2P网贷系统平台开发中期注意事项

开p2p平台公司主要分为三大步骤,迪蒙网贷在前面介绍了如何成立p2p网贷公司以及建设p2p平台前期工作,那么公司注册好之后如何开展下一步工作?为了让大家熟悉p2p网贷平台建设流程,小编再讲第二个步骤:p2p网贷平台开发中期该做什么? p2p平台各岗位职员配备 p2p网贷公司成立后第一件事当然是组件运营团队,前期的工作岗位安排可参考下面这张较为完整的p2p网贷平台人事组织架构图来进行岗位招聘,适合大中型p2p网贷平台企业,各岗位人数配备根据实际业务需求自拟. 应该说这个人事安排还不是最完善的,从互

带你认识“货真价实”的P2P网贷风控

文/杨帆 说起P2P,多数金融圈内人士已经并不陌生.国内现有近千家的P2P网贷平台,动辄打出高息诱人的收益率宣传口号以及眼花缭乱的安全承诺.但是在这些浮华表面的背后,关于P2P的风控很多人仍然是一知半解,甚至不少长期P2P圈内的资深玩家对此也是"既没吃过猪肉,也没见过猪跑". 但是不可否认的是,作为一种跳过银行间接贷款融资模式的.一种在借款人和出借人之间直接发生借贷关系的业务模式,P2P业务的核心正在于团队自身的风险定价能力,即风险管理能力是P2P公司的核心竞争力.那么,P2P公司是如

“吸金有道”看P2P网贷如何应对

本文转载至桂林锐拓官网金融宝网贷平台http://www.jrbbank.com 想了解更多信息请加QQ:3167750573 欢迎转载,转载请注明! 不论从哪个角度来看,股民这个群体都有那么一点“神奇”的色彩,不论眼前的大盘呈现出怎么样的曲线,他们永远都是一副“我自岿然不动”的样子:无论再说了多少遍“都没戏了”,隔天又满怀期待的出现在证券公司.不过伴随着P2P网贷平台的迅速崛起,原本属于股市和股民的神奇事件,正在逐步地逐步地被“蚕食”. 收益可观 热钱涌入P2P 想知道P2P为什么那么地受欢迎

全面具体介绍一个P2P网贷领域的ERP系统的主要功能

一般的P2P系统,至少包含PC站点的前端和后端.前端系统的功能.能够參考"P2P系统哪家强,功能事实上都一样" http://blog.csdn.net/fansunion/article/details/46817473.后端系统.之前我都把它看作是一个普通的"Web管理系统". 后来接触到北京专门做"类金融"系统的公司,他们的P2P后端,号称"ERP". 就总体功能而言,非常不错.支持4种业务模式.能够參考"P2

P2P网贷开始全面进入大众视野

风控是核心关注点2007年开始,P2P网贷进入中国,但一直不为大众所知,2013年,互联网金融概念爆发,P2P网贷开始全面进入大众视野.2013年以前,P2P网贷平台数量不足200家,成交总额约200亿元,网贷投资人规模约5万人.无论从投资规模或参与人数来看都是小圈子游戏.2013年以后,以平均每天成立一家平台的速度增长,截至2014年6月,平台数量达到1263家,半年成交金额接近1000亿元人民币,接近2013年全年成交金额.有效投资人超过29万,比2013年以前约3倍的增长.伴随着行业的野蛮

P2P网贷“本金保障

近年,最热门的理财,非P2P网贷莫属了.对于初级投资人来说,如何从上千家良莠不齐的P2P平台中挑选优质平台,便成为其一大难题.目前国内的P2P平台几乎都进行了模糊的“本金保障”的宣传,其中“本金保障”的方式和内容究竟是怎样的呢. 国融信投资就P2P的本金保障作简单梳理与风险剖解,为投资者选择平台提供一些依据. 为满足投资者的资金安全性要求,不少小贷网站都承诺客户100%保障本金,实质是平台的变相“担保性”条款,而这种本金保障的方式目前有两种:一种是,平台设立风险储备金.另一种是,平台引入担保机构

全面详细介绍一个P2P网贷领域的ERP系统的主要功能

一般的P2P系统,至少包括PC网站的前端和后端.前端系统的功能,可以参考"P2P系统哪家强,功能其实都一样" http://blog.csdn.net/fansunion/article/details/46817473.后端系统,之前我都把它看作是一个普通的"Web管理系统". 后来接触到北京专门做"类金融"系统的公司,他们的P2P后端,号称"ERP". 就整体功能而言,很不错,支持4种业务模式.可以参考"P2P网