从Kaggle上获取的这份数据集,是从超过15000个专业的数据科学家收集的数据,让我们对他们的偏好、工作、学习资源和技术水平有了一个非常好的了解。
以下的分析中,简单的从几个方面对数据科学家的现状进行分析。
我们有超过16716人的数据。由于问题的数量实在是太大了(总共超过300个),所以指望人们回答所有的问题是不现实的。换句话说,我们的大多数数据点都是空的。
从以下几点进行分析
- 性别
让我们看看回答者的性别比例
我们发现,我们的调查对象绝大多数都是男性。这反映了数据科学和一般技术领域的一个非常严重的问题,性别比例严重偏向男性。
- 年龄
我们的受访者相对年轻,超过75%的人口年龄在37岁以下。平均年龄和中位数分别是32岁和30岁。我们大多数的调查对象都是25-35岁的人。
- 教育水平
最多的是拥有硕士学位,这说明了正规教育在数据科学领域的重要性。学士学位持有者位居第二。相当多的人拥有博士学位。
- 主修专业
我们大多数的受访者都有计算机科学、数学或工程学专业的本科专业。数学和计算机科学也恰好是数据科学的交集。尽管如此,在我们的数据集里同意的专业学生数量还是相当多样化的,包括人文、美术和人文学科在内的各行各界人士。
- 职位类型
我们的大多数受访者都是全职工作。
- 编写程序经历
我们大多数的受访者都有不到5年的编写代码的经验。相当多的人只有不到两年的经验。这些信息,再加上我们之前提取的信息表明,编码技能不是数据科学专家必备技能。
- 初学者最常见的问题
我们现在对数据科学从业者的结构有了一个很好的了解。现在让我们进入笔记本的主要部分,回答一些在数据科学领域中初学者所提出的最常见的问题。
- Q1.我应该学习哪种语言,python 还是R?
可以看出,使用python的最多,接下来让我们看看,对于不同的工作,python和R的使用情况。几乎所有的职业都倾向于选择Python作为他们的语言推荐。一个显著的不同是统计学工作者,他们更喜欢使用R,唯一比Python更使用R的职业是操作研究从业者。因此,如果你是统计学家,推荐使用R,如果你从事其他工作,推荐使用Python.
- Q2.下一年最激动人心的大事件什么?
TensorFlow是这里的赢家。谷歌的深度学习框架由于其强大的功能和易用性,在最近的历史上获得了巨大的人气。
- 在寻找数据科学工作时,我应该考虑哪些因素?
学习机会是我们的受访者在申请数据科学工作时考虑的最大因素。办公室,语言,薪水和管理是在找工作时考虑的其他重要因素.