拉勾网大数据相关岗位数据爬虫分析

拉勾网大数据相关招聘数据分析

观察对象:大数据相关岗位的招聘数据

观察时间:2016.3.28

数据来源:拉勾网

1、分析目的

目前,大数据是一个非常热门的话题,受到很多人的关注和追捧,其创造的相关职业也受到大家的青睐。但大数据相关职业究竟是什么样,有怎么样的要求,有怎样的待遇还不为多数人所知,为了更好的了解大数据相关职业要求及其福利待遇进行本次数据分析。

2、数据采集

1 数据来源:拉勾网,拉勾网是专业的互联网招聘平台,专注互联网职业机会,其数据具有代表性;

2 数据类型:json类型数据;

3 采集方法:python爬虫,输入的关键字为‘大数据’,所以采集的数据包括所有大数据相关的岗位数据;

4 数据量:一共采集到99页共条1476数据。

3、数据准备

本次采集的数据共1476条,每一条数据有个50变量。为了关注主要因素,在数据准备过程中将去除不必要的变量,由于数据量较多,对少数的存在缺失值的行也进行清除,重新构造易于分析和作图的数据集。

4、数据分析

1. 大数据相关职业招聘信息在全国各城市分布情况的分析

由各城市大数据招聘信息数量的分布可知,目前大数据相关职业的招聘主要集中在北京、上海、广州、杭州、深圳这几个经济相对更发达的地区,尤其是首都北京,是这几个城市的3倍之多。出现这种现象也不足为怪,毕竟大数据还是一个新型的产业,很多二三线城市的传统企业和公司还处在观望之中。对于北京数量之多,个人认为主要与国家政策、创业潮有关,毕竟是首都,能快速嗅觉到国家大力支持发展大数据的苗头,同时‘互联网+’的创业大潮也推进了各公司对大数据人才的渴求。

2. 大数据相关职业类型分析

由大数据相关职业工作类型的分布可知,大数据技术人才最受欢迎,其次是产品和运营。有人说大数据科学家是会编程的统计学家,从该图可以看出这个‘编程的能力’以及处理、挖掘数据的能力还是占据重要因子的。而对于产品和运营,可能与最近讨论得很火的‘人物画像’‘精细化运营’等有关,运用大数据的相关知识实现精准营销。当然,大数据在金融、市场销售等方面也逐渐受到重视,个人认为这是一个趋势,毕竟大数据只是一种手段,更重要的是如何把大数据运用的各个行业,为行业服务。

3. 大数据相关职业招聘对技能要求的分析

上面讨论到大数据技术人才最受欢迎,再继续看看大数据究竟对那种技能或那种语言和工具比较青睐。

由气泡分布图(圆圈越大,表示其重要程度越高)可知最受青睐的前10个大数据工具是Hadoop、Java、Spark、Hbase、Hive、Python、Linux、Strom、Shell编程、MySQL。其中Hadoop和Spark都是分布式并行计算框架,目前看来Hadoop占主导优势,Spark位居其后,但Spark有迎头赶上的趋势。Hadoop是由Java实现的,所以java排在其后也不奇怪。Hbase是一个开源的分布式的列式数据库,MySQL是一种开源的关系型数据库,Hive是一种数据仓库,Strom是一种流式处理框架,而Python/Shell是两种脚本编程语言,Linux是一个操作系统。

上面这个图如果看起来比较费劲,我们来看看下面这个图:

4. 大数据相关职业招聘对学历要求的分析

由上图可知大数据相关职业对学历的要求主要是本科以上,其次是大专,而对于学历高的硕士和博士貌似不太感冒。由于大数据主要对技术人才感兴趣,工作的实践性比较高,可能学历高的人才反而占不到优势。我们可以接着对比一下对工作经验的要求再做深入的分析。

5. 大数据相关职业招聘对工作经验的分析

由上图可知,大数据相关职业对有3-5年工作经验的人才最青睐,其次是1-3年和5-10年。对比上面对学历的要求可知,大数据相关职业确实是青睐有工作经验的本科生,而不是学历高但经验缺乏的硕士生和博士生。

6. 大数据相关职业的薪资分析

由图可知,大数据相关职业总体工资水平还是有较大的波动,但也主要集中在10k-30k的范围内。我们看看不同工作类型的工资的分布情况:

由图可知金融行业相关的大数据职位的平均工资最高,其中产品、技术以及职能的平均工资相差不大,市场与销售、运营的工资相对较低,但平均工资也在10K以上。总的来说,大数据相关职业的薪资水平随工作经历等存在一定的波动,但工资来说还是相对较高的。

7. 大数据相关职业的福利待遇分析

从有大数据人才招聘需求的公司提供的福利来看,其中最多的就是五险一金的基本保障、其次是带薪休假、弹性工作、双休、年终奖、绩效奖等,总的来说这些公司福利还算不错,但从这些数据里可以看出,相比于一些大的国企,这些公司对于解决户口等同学们关注得比较多的,没有提及。

8. 有大数据人才招聘需求的公司融资情况分析

从上图可知,有大数据人才招聘需求的公司中上市公司还是占据最大的比例,排在前面的几位也都是成长型或成熟型的融过资的公司,排在后面几位的公司除了一个成熟型D轮以上,其它要么没有融资,要么不需要融资,这里可以说明上市公司或刚拿到融资的成长型公司对于大数据人才的渴求更高。

5、结论

从面的分析,大致可以得出下面几个重要的结论:

a. 大数据还只是北上广等经济发达城市发展得很热的新型行业,二三线城市还有待发展,所以要找大数据相关的工作就去北上广吧;

b. 大数据相关工作岗位主要以技术、产品、运营为主,而且技术占据大半江山,而技术技能要求中主要以Hadoop/java/Spark/Hbase/Hive/Python/MySQL/Strom/shell等为主,所以才要从事大数据相关岗位不防从学习这些技能开始;

c. 大数据相关职业对学历的要求主要以本科为主,就算是大专学历也是很受欢迎的,而博士和硕士却不受青睐,这是一个要求工作经验为住的行业,所以就算你学历不高,想从事大数据相关工作也是不成问题的;

d. 大数据相关工作岗位的薪资还是算比较高的,福利待遇方面也还不错,其中金融大数据人才的工资最高;

目前招聘大数据人才的公司主要是以上市公司和成长型的融资公司为主。

6、有问题交流的可以关注Dataanswer大数据 http://www.dataanswer.top

时间: 2025-01-02 17:38:05

拉勾网大数据相关岗位数据爬虫分析的相关文章

最容易获得高薪的大数据相关岗位有哪些呢?

大数据的时代洪流是不可阻挡的,大数据发展迅速,将为社会带来三方面的变革:思维变革.商业变革.管理变革,各行各业将大数据纳入企业日常配置已成必然之势.目前,我国大数据人才只有46万,未来3到5年人才缺口达150万之多,所以说大数据行业就业肯定是靠谱的,那么现在大数据行业最容易获得高薪的大数据相关岗位有哪些呢?我们一起来看一下. 大数据开发相关高薪岗位一:ETL研发 随着数据种类的不断增加,企业对数据整合专业人才的需求越来越旺盛.ETL开发者与不同的数据来源和组织打交道,从不同的源头抽取数据,转换并

python&php数据抓取、爬虫分析与中介,有网址案例

最近在做一个网络爬虫程序,后台使用python不定时去抓取数据,前台使用php进行展示 网站是:http://se.dianfenxiang.com python&php数据抓取.爬虫分析与中介,有网址案例,布布扣,bubuko.com

python&php数据抓取、爬虫分析与中介,有网址案例

近期在做一个网络爬虫程序.后台使用python不定时去抓取数据.前台使用php进行展示 站点是:http://se.dianfenxiang.com

解密大数据领域岗位职业发展路径

我们迎来了一个新的时代,这就是大数据的时代. —经济学家 詹姆斯·莫里斯 行业背景 国家信息中心<2017中国大数据产业发展报告>对我国大数据产业发展的人才.政策.投融资.创新创业.产业发展.区域潜力.机构和人物影响力等多个维度进行了全面分析.结果显示,我国大数据发展总体处于起步阶段.但大数据领域资本热度依然坚挺,并逆势上扬,大数据企业融资总额及单个项目平均融资金额呈加速上升态势,大数据领域成为资本蓝海. 人才供需不均衡 缺人,这是全国乃至全球大数据圈都挺蛋疼的一件事儿.2016年的人才关注度

大数据科学相关岗位,需要具备哪些数学基础?

在不久的将来,大智时代一定会彻底走入我们的生活,多智时代专注于人工智能.大数据.云计算和物联网的入门学习和科谱资讯,让我们一起携手,引领人工智能的未来 数据科学相关岗位要具备哪些数学基础?想成为一名顶级的数据科学家还需要掌握其他领域的知识,比如编程能力.具有一定的商业头脑,以及对数据的独特分析和好奇心态. 有时候,作为一名数据科学家(甚至是团队的初级分析师),你必须全心全意地学习那些基础的数学知识,或者正确地应用这些技术,有时候你可以通过使用一些API或者拿来即用的算法完成相关任务.大数据科学相

想从事数据科学相关岗位,这些数学基础“必备”

很多同学想从事数据科学岗位,对于这个岗位而言,数学知识的储备重要吗? 答案显而易见,掌握好数学对于从事该岗位而言是很重要的.数学一直是任何当代科学学科的基础,几乎所有的现代数据科学技术(包括所有的机器学习)都有一些深刻的数学知识.在本文中,我们将讨论想成为一名优秀的数据科学家应该掌握的基本数学知识,以便在各个方面都能很好地适应. 介绍 有时候,作为一名数据科学家(甚至是团队的初级分析师),你必须全心全意地学习那些基础的数学知识,或者正确地应用这些技术,有时候你可以通过使用一些API或者拿来即用的

大数据运营之孕育:分析处理系统容量设计方法

[本文摘自:李福东<大数据运营>3.5.1.2,了解更多,请关注微信公号:李福东频道] 编者按 大数据服务通常要经过数据ETL.数据存储.数据分析.数据展示.数据开放的过程,因此在计算能力.存储能力以及网络能力的估算上也有自身的特点. 正文 与事务处理应用相比,大数据服务属于分析处理应用,由于两者的数据处理特点不同,因此容量估算方法也有一定的区别. 大数据服务通常要经过数据ETL.数据存储.数据分析.数据展示.数据开放的过程,因此在计算能力.存储能力以及网络能力的估算上也有自身的特点. 大数据

大数据相关技术说明(一)

1.什么是ETL? ETL,Extraction-Transformation-Loading的缩写,中文名为数据抽取.转换和加载.ETL负责将分布的.异构数据源中的数据如关系数据.平面数据文件等抽取到临时中间层后进行清洗.转换.集成,最后加载到数据仓库或数据集市中,成为联机分析处理.数据挖掘的基础.ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败.ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率

java面试(2)--大数据相关

第一部分.十道海量数据处理面试题 1.海量日志数据,提取出某日访问百度次数最多的那个IP. 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中.注意到IP是32位的,最多有个2^32个IP.同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大 的几个)及相应的频率.然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求. 或者如下阐述(雪域之鹰)