kaggle之数据分析从业者用户画像分析

数据为kaggle社区发布的数据分析从业者问卷调查分析报告,其中涵盖了关于该行业不同维度的问题及调查结果。本文的目的为提取有用的数据,进行描述性展示。帮助新从业的人员更全方位地了解这个行业。

参考学习视频:http://www.tianshansoft.com/

数据集:https://pan.baidu.com/s/1o7BFzFO

变量说明

数据中包含228个变量,提取其中的一些较有价值的变量进行描述性分析

  • 数据处理

survey <-read.csv(stringsAsFactors = F,file = ‘F:\\R/数据科学社区调查/multipleChoiceResponses.csv‘,header=T,sep=‘,‘)
class(survey)
table(survey$Country) #统计每个国家参与人数

查看国家时,发现国家中中国被切分成共和国,民国,台湾,此处自行统一为中国

#将大陆,中华民国,台湾统一为中国
survey$Country <- ifelse(survey$Country=="People ‘s Republic of China"
                          | survey$Country==‘Republic of China‘
                          | survey$Country==‘Taiwan‘
                          ,‘China‘,survey$Country)

数据描述性展示

  • 探索数据从业者中年龄最小(中位数)的十个国家

#将数据按国家分类,并求年龄的中位数
Country_age <- survey %>% group_by(Country) %>%
  summarise(Age_median=median(Age,na.rm = T)) %>%
  arrange(Age_median)
head(Country_age)
#绘图,探索数据科学从业者年龄中位数最小的十个国家
p1 <-ggplot(data = head(Country_age,10),aes(reorder(Country,Age_median),Age_median,fill=Country))+
  geom_bar(stat=‘identity‘)+coord_flip()+
  labs(x=‘年龄‘,y=‘国家‘,title=‘探索不同国家数据从业者的平均年龄‘)+
  geom_text(aes(label=round(Age_median,0)),hjust=1.5)+
  theme(legend.position = ‘none‘,plot.title=element_text(hjust = 0.3))
#绘图,探索数据科学从业者年龄中位数最大的十个国家
p2 <- ggplot(data = tail(Country_age,10),aes(reorder(Country,Age_median),Age_median,fill=Country))+
  geom_bar(stat=‘identity‘)+coord_flip()+
  labs(x=‘年龄‘,y=‘国家‘)+
  geom_text(aes(label=round(Age_median,0)),hjust=1.5)+
  theme(legend.position = ‘none‘)
#合并两张图
library(Rmisc)
multiplot(p1,p2,cols = 1)

可以看到,按年龄中位数排列的话,亚洲国家在年龄较小的十个国家中占了七席,其中年龄中位数最小的国家为印度尼西亚和越南,只有24岁。中国的数据从业者集中在26岁。而年龄中位数最大的国家中,欧洲国家占了六席,且几乎都为发达国家。可见发达国家在数据科学领域已经有多年的发展。

探索数据从业者的职位名称分类

首先对数据整理,得出受访人数最多的前十个职位,且降序排列

#数据科学从业者的职位分类
jobtitle<-table(survey$CurrentJobTitleSelect)%>%  #统计频数
  as.data.frame()%>%                           #转化为数据框
  arrange(desc(Freq))                    #按频数倒序排列(大在前)
jobtitle <- jobtitle[-1,]               #人数最多的一行为空值,即职业一栏无填写

接下来进行绘图,将数据可视化

ggplot(data=head(jobtitle,10),aes(x=reorder(Var1,Freq),Freq,fill=Var1))+  #选取受访人数最多的前十个职业
  geom_bar(stat = ‘identity‘)+
  labs(x=‘职业‘,y=‘人数‘,title=‘受访人数最多的十个职位‘)+
  coord_flip()+                         #翻转坐标轴
  geom_text(aes(label=Freq),hjust=1.5)+    #添加数据标签
  theme(legend.position = ‘none‘,plot.title = element_text(hjust = 0.2))          #去除图例,调整标题位置

从图中可看出数据科学家参加问卷调查的人数最多,达2433人。排名第十的为程序员,只有462人

探索中美两国受访者的职业分类

  • 处理数据

diff_nation <- survey[which(survey$Country==‘China‘),]      #提取出国家为中国的调查者信息
diff_nation1 <- survey[which(survey$Country==‘United States‘),]  #提取出国家为美国的调查者信息
china_jobtitle <- table(diff_nation$CurrentJobTitleSelect)%>%as.data.frame()%>%arrange(desc(Freq)) #探索在中国的受访人数较多职位
usa_jobtitle <- table(diff_nation1$CurrentJobTitleSelect)%>%as.data.frame()%>%arrange(desc(Freq)) #探索在美国的受访人数较多职位

图中可看到,中国的受访者中,有361人没有填写当前职位这一栏。美国也有1072人。在绘图的过程中,需要将这些空值筛选掉

  • 绘图

p3<-ggplot(china_jobtitle[c(2:11),],aes(reorder(Var1,Freq),Freq,fill=Var1))+  #数据集中国前十位热门职业
  geom_bar(stat = ‘identity‘)+
  labs(x=‘职业‘,y=‘受访人数(中国)‘,title=‘中美两国受访者的当前职位对比‘)+
  coord_flip()+                  #翻转坐标轴
  geom_text(aes(label=Freq),hjust=1)+
theme(legend.position = ‘none‘,plot.title = element_text(size = 15,face = ‘bold.italic‘)) #去除图例,设置标题大小,字体

p4<-ggplot(usa_jobtitle[c(2:11),],aes(reorder(Var1,Freq),Freq,fill=Var1))+  #数据集中国前十位热门职业
  geom_bar(stat = ‘identity‘)+
  labs(x=‘职业‘,y=‘受访人数(美国)‘)+
  coord_flip()+                  #翻转坐标轴
  geom_text(aes(label=Freq),hjust=1)+
  theme(legend.position = ‘none‘)
#合并两图
multiplot(p3,p4)       

图中可看出,中国的受访者中,人数最多的为数据挖掘工程师,共66人,而美国受访者中最多的为数据科学家,共773人。排在第二位的皆为软件开发工程师。

探索数据科学从业者明年将学习的学习工具

  • 数据处理

study_tool <- table(survey$MLToolNextYearSelect) %>%
        as.data.frame()%>%
        arrange(desc(Freq))

  • 绘图

绘图过程与前面大同小异,所以可将绘图函数封装,代入变量即可

##############============封装绘图函数========#####################
fun1 <-function(data1,xlab1,ylab1,xname1,yname1,titlename1){
  ggplot(data = data1,aes(x=xlab1,y=ylab1,fill=xlab1))+
    geom_bar(stat = ‘identity‘)+
    labs(x=xname1,y=yname1,title=titlename1)+
    coord_flip()+                  #翻转坐标轴
    geom_text(aes(label=ylab1),hjust=1)+   #数据标签
    theme(legend.position = ‘none‘,plot.title = element_text(size = 15,face = ‘bold.italic‘)) #去除图例,设置标题大小,字体
}
########################################################################  

代入变量

#function(data,xlab1,ylab1,var1,xname1,yname1,titlename1)
data   <- study_tool[c(2:11),]
xname1 <- ‘明年将学习的学习工具‘
yname1 <- ‘人数‘
titlename1 <- ‘受访者明年将学习的学习工具调查‘
fun1(data,reorder(data$Var1,data$Freq),data$Freq,xname1,yname1,titlename1)

图中可看到,学习TensorFlow将成为明年的趋势,在受访者中,学习的人数达2621人之多。而接下来为python和R。可以预见,这3项将成为以后的主流学习工具。

探索中美两国数据科学从业者明年将学习的学习工具

  • 数据提取

china_studytool <- survey %>% filter(survey$MLToolNextYearSelect !=‘‘&Country==‘China‘) %>%
              group_by(MLToolNextYearSelect) %>%
              summarise(count=n())%>%              #n() 汇总
              arrange(desc(count))

以上为提取中国受访者明年将学习的学习工具数据。

图中可见,中国数据科学从业者明年即将学习的学习工具热度较高的为Python,TensorFlow,Spark,jupyter,R。而美国为TensorFlow,python,sparkR,其他,比较符合国际趋势。

探索数据科学从业者明年将学习的机器学习方法

可以看到,当前的机器学习趋势为深度学习,神经网络,时间序列分析,贝叶斯方法,文本挖掘等。对机器学习方法感兴趣的从业者不妨做个参考。

从业者对新手的建议

  • 推荐的编程语言

python,R,SQL是入门机器学习的必备技能

原文地址:https://www.cnblogs.com/jvfjvf/p/8204284.html

时间: 2024-10-05 23:58:19

kaggle之数据分析从业者用户画像分析的相关文章

大数据可视化分析电商快销用户画像分析系统开发

大数据的时代,每一个企业都希望从用户数据中分析出有价值的信息.尤其是电商行业,用户画像分析可以让商品推广范围更加精准,从而提升销量.大数据分析系统可以从海量数据分析预测出商品的发展的趋势,提高产品质量,同时提高用户满意度. 用户画像也叫用户信息标签化,根据用户社会属性.生活习惯和消费行为等信息而抽象出的一个标签化的用户模型.在电商的大数据中,可以通过用户的消费习惯,在电商平台上填的信息分析出大致的标签. 大数据可视化电商用户画像分析系统的优势: 1.精准营销:通过用户画像分析后,可以针对潜在用户

重点:用户画像

一.用户画像 參考:http://www.36dsj.com/archives/16090 1.为什么要做用户画像? 一方面是海量信息的汇集.比如京东是一家大型全品类综合电商.海量商品和消费者产生了从站点前端浏览.搜索.评价.交易到站点后端支付.收货.客服等多维度全覆盖的数据体系,还有一方面日益复杂的业务场景和逻辑使得信息的处理挖掘日益重要.也就是说,京东已经形成一个储量丰富.品位上乘且增量巨大的数据金矿,可是在相当长一段时间,非常多业务童鞋常常面对宝山空回的局面,比方我们的数据"疯析狮&quo

个推用户画像的实践与应用

"以用户为核心"的概念在互联网时代深入人心,然而要真正了解用户懂得用户,就不得不提到"用户画像". 随着大数据技术的深入研究与应用,借助用户画像,企业或APP可以深入挖掘用户需求,从而实现精细化运营以及为精准营销打下坚实基础.本文将重点介绍何为用户画像,用户画像的构建流程以及应用场景. 用户画像,本质是数据能力的体现 用户画像,即用户信息的标签化,而从本质上来说,用户画像是数据的标签化.常见的用户画像体系有三种:结构化体系.非结构化体系和半结构化体系.非结构化体系没

产品方法论总结(5)——用户画像&amp;用户场景

作为产品人,在逛专业网站看前辈分析产品时都会分析用户画像,一般都是分析用户的年龄.性别.地域分布等特点.今天想分享一下梁宁老师的两个用户画像分析模式,一个是:第一只羊,头羊,狼:另一个是:大明,笨笨,小闲.具体介绍如下: 第一只羊,头羊,狼.这个用户画像模式可以讲一个小故事:有个商人,准备的一片草地,想要养羊,于是他先拉来第一只羊来实验,看这只羊是否喜欢自己的草地,以及这只羊在自己的草地上玩的开不开心,想不想离开,通过改善草地的环境,终于有了喜欢上这里的第一只羊,于是,商人就引进了和第一只羊相同

技术培训 | 大数据分析处理与用户画像实践

孔淼:大数据分析处理与用户画像实践 直播内容如下: 今天咱们就来闲聊下我过去接触过的数据分析领域,因为我是连续创业者,所以我更多的注意力还是聚焦在解决问题和业务场景上.如果把我在数据分析的经验进行划分的话,刚好就是我所经历的两次创业阶段,第一阶段是"第三方数据分析",第二阶段是"第一方数据分析".所以今天咱们就从这两点来谈谈数据分析. 第三方数据分析 先聊聊"第三方数据分析",这个主要结缘于我给开复做微博数据挖掘. 起因:给开复做"微博

【Python数据分析】用户通话行为分析

主要工作: 1.对从网上营业厅拿到的用户数据.xls文件,通过Python的xlrd进行解析,计算用户的主叫被叫次数,通话时间,通话时段. 2.使用matplotlib画图包,将分析的结果直观的绘制出来. 具体步骤: 1.分析须要的内容 excel文件中包含很多信息,我们分析的时候须要用到的包括,通话起始时间.通话时长.呼叫类型,号码. 使用xlrd模块,读取excel中的数据,用列表的形式保存下来. 1 #coding=utf-8 2 import xlrd 3 4 def readData(

大数据分析--用户画像

从去年还在北京工作的时候就开始不断的听说,用户画像.用户画像,而且,有个项目,项目领导美其名曰:用户画像,这么长时间,也没有真正的思考过什么叫用户画像.前几天看到一篇关于这方面的文章,决定整理消化,希望通过这种方式可以成为我自己的知识. 一.什么是用户画像(user profile) 用户画像,简而言之就是对用户信息的标签化,如图1所示. 二.为什么需要用户画像 用户画像的核心工作是为用户打标签,一方面,标签化是对用户信息的结构化处理,方便计算机识别和处理,方便进行分类统计(男女比例).数据挖掘

项目一:EXCEL数据分析(5W2H法):用户购买行为分析

项目:用EXCEL对用户购买行为进行分析---采用5W2H框架 1.确定分析思路 1.1用户购买行为分析:5W2 WHY:用户购买的目的是什么?---市场调查获取数据 WHAT:用户主要购买的产品?---各产品的销量分布 WHEN: (1)用户何时购买?---购买时间分布 多久再次购买?---购买间隔分布 WHO:用户有什么特征: 男女比例 年龄分布 地域分布 学历分布 收入分布. 注册时间分布 HOW MUCH: 用户购买什么价位段的产品?---价格段分布 用户再次购买意愿如何?---用户购买

干货|如何做用户行为分析? &nbsp;

在大数据时代,大数据分析非常重要,我们要理解大数据的核心价值,并掌握大数据分析方法.数据分析中,分析的最多的是用户,分析用户,分析的是用户行为和属性.今天智云通CRM系统小编要跟大家分享的是如何做用户行为分析. 一切不谈目的的分析的都是耍流氓.那我们就先来谈谈用户行为分析的目的都有哪些. 一.用户行为分析的目的 1)新产品迭代开发:通过分析用户行为,定位目标用户人群,通过用户画像等手段找到用户需求,开发新产品: 2)精准营销:产品已经有啦,是不是要分析分析用户的行为,找找我们的潜在用户,针对特定