从本科生到数据科学家,为啥这个职业门槛高?

参与文末话题讨论,每日赠送异步图书

——异步小编

William  Chen是Quora的一位数据科学家,在那里他协助Quora发展壮大,为这个世界分享知识。在拿到哈佛大学的统计和应用数学双学位之后,他直接成了一位数据科学家,也是世界上第一批在校期间接受了完整的数据科学课程并且最终在毕业之后直接加入了数据科学领域的学生之一。全职加入Quora之前,他曾经在Quora和Etsy做数据实习生。他很喜欢讲述各种与数据有关的故事,并且也在Quora上广泛地分享他的知识。

William也是《数据科学家访谈录》的联合作者之一。

您能告诉我们一些一路走来进入数据科学领域的故事吗?

在哈佛大学的第一年,我开始想要学习数学,不过最终选择了Joe Blitzstein的统计110课程。那门课改变了我思考不确定性问题以及日常事务的方式,同时让我明白了直觉与沟通的价值。在那门课的影响下,我在第二年将专业转为统计学。

大二的时候,我开始四处寻找实习机会,期待能将自己的一些概率和统计知识用起来。我在当时主要只拥有理论知识,对于应用开发实在知识有限,当时我惊喜于Etsy主动邀请我加入他们公司实习,职位是一名数据分析师。这是我第一次尝试使用数据来提高公司业务——实习在各个方面都帮助了我成长,磨练了我的技术,让我成了一个初露头角的数据科学家。

Etsy是一个基于数据指标的公司,我能够清楚地看到并且理解Etsy公司的最重要核心业务主要是依赖于A/B测试的一些算法。大家在邮件中频繁地交流着各种统计知识,并且让我能够了解各种常见技术,知道以数据指标为业务驱动的科技公司的一些潜在软肋。

Etsy的数据展示效果很漂亮(D3的仪表板和高亮幻灯片桌面)。在那样一个重视可视化的公司环境下,我自学了ggplot2,开始制作自己的图片。在那段实习中我学到了很多东西——这是我作为数据科学家职业的第一步。

在Etsy的实习结束后,我开始了自己的大三生涯。那一年,我回到哈佛,成了一名统计110课的助教(相当于协助本科生教学的助理)。

通过帮助人们解决他们遇到的概率问题,我意识到教授统计学能够帮助我改善我的沟通能力和讲故事的能力。这也很有趣,并且我也更习惯去与别人分享自己的所学。

如果没有足够强大的编程知识供你实现自己的统计想法,你可以做的东西就会受到很多的限制。

大三那一年,我也开始上更多的计算机课程,我意识到了它们在数据科学中的重要作用。如果没有足够强大的编程知识供你实现自己的统计想法,你可以做的东西就会受到很多的限制。我意识到要想成为一名成功的数据科学家,统计和计算机两者都是不可或缺的,所以我通过上与这两者有关系的课程去尝试成为一名统计与计算机交叉领域的专家。

大三的时候,我也申请了一些实习,我的想法就是要使用自己的统计和编程技巧来帮助公司做出更好的决策。我收到了Quora的实习Offer并且接受了它,尽管我当时对于产品依然一无所知。

在Quora,我接触到更多的代码库,学习了更多关于软件工程的知识。我对自己的项目永远都很重视,并且也非常勤于思考它们。我接手的项目涉及公司新的增长计划,我喜欢Quora公司的自由度以及它对于员工的信任态度。我喜欢与他人打交道,也很喜欢那里的各种产品,所以我决定毕业之后回到Quora做全职工作。

大四时,我继续研究统计和各种编程工具,并且完成了我的毕业论文。

您在一开始为什么选择了统计学而不是计算机科学?

我把大量的时间放在统计110和一大堆其他统计类课程中了——我喜欢这些课程,所以对我来说完全没有理由选择别的专业!

在Etsy公司实习期间,我亲眼看到了如果我只能做统计而无法做编程工作的话,工作能力将是多么有限。那年夏天,我花了很大力气学习使用R语言来分析数据。

我在大三和大四两年,差不多都选择了相同数目的统计和计算机科学课程。通过选修计算机课程,我可以更高效地做统计分析。我选择那些能够让我更好地应用统计的课程(机器学习、并行编程、网络开发、数据科学)或者只是因为它们是非常有趣的某些数学课题(数据结构和算法、经济学和计算机科学)。

我的主要兴趣依然是统计,但我非常重视计算机科学,因为它能够让我做更复杂的分析,生成可视化图片,同时处理大量的数据,并自动化很多我的工作,这样我就可以专注于非常有趣的一些问题了。

我甚至在大四上学期申请了计算机科学的第二学位。我恰好已经满足其毕业要求(这绝对是不小心的)并且足够去申请第二学位证了,因为我不需要做什么其他努力了,只需要做一些文件盖章工作就行了。

您可以更多地告诉我们一些您在实习过程中遇到的比较棘手的问题吗?

为以数据为中心的科技公司工作的一个令人兴奋的事情就是有很多潜在的项目需要你去解决。有很多数据可以分析,他们从来没有足够多的数据科学家去真正深入研究其中的所有事情。我在实习期间的主要挑战,特别是在Quora,就是弄清楚如何考虑自己在做的一堆事情的优先级,尤其当自己同时在做许多项目的时候。

在Quora,我意识到我无法在同一时间处理所有事情,这是我在学校里做事情的方式。我意识到我需要优先考虑对公司影响最大的事情。如果我花了太多时间在某些软件上,就可能没有足够的时间去专注研究那些可能具有更高影响力的增长计划。

您如何看待人们说“数据科学是数学、统计和计算机科学的交叉学科”?您觉得它们在其中的权重是怎样的?

我觉得,编程和软件工程部分非常重要,因为你可能希望自己去实现模型,编写仪表板,并以一些很新颖的方式去提取数据。你将是负责转移存储自己的数据的人。你将成为拥有端到端和全栈开发能力的人员,完成从提取数据到做成报告、展示给公司看的整个过程。

帕累托原则(Pareto   principle)在这里充分发挥作用。80%的时间都是用于爬取数据、清理数据并编写代码进行分析。我在实习期间发现这个说法真的不假(特别在当时我是初入行的人)。出色的编码知识在这里尤其重要,可以节省大量的时间,让你也不那么容易遇到挫败感。

我要强调的是:获取数据并确定如何处理数据需要花费大量的时间,而且这部分通常不需要任何统计知识。这部分大多数都是利用软件工程技术去清理数据,或者撰写高效的查询代码去数据库中移动和分析你的数据。编程在这里真的很重要。

有一件值得一提的有趣的事情是,在数据科学中使用的统计学与你在研究论文中读到的统计学真的不一样。公司对于统计方法的选择有在速度、可解释性和可靠性方面的偏向,而不是理论上的完美无缺。

你越是了解统计或者算法的底层机制和原理,你就可以越好地阐明自己正在做什么,并与团队的其他成员沟通。

虽然公司用到的统计学和数学可能并不复杂,数学和统计学的扎实基本功依然在你需要区分真实洞见和虚假结果的时候显得非常重要。此外,牢固的基本工和经验将让你有更好的直觉去思考如何解决公司中更为棘手的问题。你可能对于为什么某个指标突然下降有更好的直觉上的解释,或更清楚为什么人们突然选择了你的产品。

强大的统计数学和数学背景的另一个好处是对沟通的贡献。你越是了解统计或者算法的底层机制和原理,你就可以越好地阐明自己正在做什么,并与团队的其他成员沟通。作为数据科学家,你的大部分工作都是向人们展示你觉得在未来会有重大影响力的成果。沟通对于实现这一点非常重要。

一些数据科学岗位需要非常强大的统计或机器学习背景。因为它们可能需要你去开发feed自动推送或者其他推荐引擎,或需要你知道如何完成时间序列分析、基本的机器学习技术、线性回归和因果推理等问题。有很多种类的数据是需要更高级的统计方法才能完成分析的。

计算机科学、统计学和数学之间的平衡将取决于你的岗位,这是我的观察结论。

您如何看待目前大部分加入数据科学界的人都拥有博士学位这一现象?

数据科学是现在的一个新领域,招聘者正在寻找有能力成为数据科学家的人才。因为这是一个全新的领域,不是很多人在这方面有过经验,所以你必须找到一些能够表征他们在未来能够胜任这个工作的人才。拥有计算/定量的研究背景的博士们通常是一个很好的选择,因为他们已经做了大量的研究和数据工作。具有数据处理经验的博士和硕士生通常已经具备了数据科学界的很多素质:能够快速学习,提出问题,并且具有灵活性。

我认为公司在未来会开始招聘越来越多的本科生去担当数据科学家的角色,在5~10年内,将有更多符合数据科学这个领域需求的人才出现。哈佛大学有那么多的二年级学生,他们中肯定有人想要成为数据科学家,例如当时大二的我。我认为他们也会将这看作一个充满希望与激动人心的职业方向,我个人也是这么看的。

具有数据处理经验的博士和硕士生通常已经具备了数据科学界的很多素质:能够快速学习,提出问题,并且具有灵活性。

目前,有大量MOOC(公开在线课程)提供课程和证书,而世界各地的大学正在提供他们的第一个数据科学课程。例如,哈佛的第一个数据科学课程和第一个预测模型课程在2013——2014学年出现。这些课程对于想要学习数据知识的本科生来说是完美的起点。

如果你想聘用数据科学家,就当下而言恐怕有经验的人真的不多,那些拥有博士和硕士学位的人是很好的候选人。这种情况可能会在未来五到十年内改变,因为会有更多的本科生也拥有合格的数据科学技能要求。

现在在Coursera已经有数据科学这个专业方向了,在哈佛,有Joe Blitzstein和Hanspeter Pfister在教授数据科学课程。Joe就是教授那门我所喜爱的统计课的教授。

2014年春季,哈佛开设了一个预测建模课程。这是一个专注于Kaggle比赛的课程。这类课程对于想要从事数据领域工作的本科生来说是完美的起点。

如果可以回到大学的时光,您会把更多的精力放在哪里?有什么您觉得当时忽视了的东西?

我认为我在大学课程选择方面的最大遗憾是没有在大一学年选修编程课程。编程在数据科学中如此重要——除非是谷歌或亚马逊这样的巨大公司,否则几乎不会有纯粹的不用写代码的统计学家职位,因为这些巨大的公司可能需要专门研究统计人员。编程是非常重要的,你不能逃避它。

当谈及术语“数据科学”时,很多人担心或者声称在这个领域有很多炒作,因为它被夸大了。您对这样的观点有什么看法?

现在对于数据科学的炒作确实有点过了,就像云计算和手机/本地化/社交平台热潮一样。然而,它被夸大并不意味着它并不重要。我认为在未来几年,炒作和泡沫将会不复存在,但数据科学的重要性不会。

您认为数据科学家的需求会随着软件工具的优化而渐渐消亡吗?

就我个人而言,我很喜欢各种新的软件工具。我认为数据科学家的工作将在未来几年内发生变化,因为程序工具会变得越来越好。

不过,我不认为数据科学家的需求将会减少,因为我们总是需要能够解读结果的人,并将洞察力提炼成可行的计划来改善业务。数据科学永远不缺困难的问题——人们总是需要解释结果并交流想法。我认为数据科学就是这样——它将数据转化为可行的结论,用以改善产品和业务。

我们总是需要能够解读结果的人,并将洞察力提炼成可行的计划来改善业务。

软件工具可能会使某些数据科学家做的工作被淘汰,因为一些创业公司会提供企业级别的全面解决方案,以及将某些数据方面的任务商业化。但是即使使用了新的工具,我们也依然需要数据科学家去依赖人类智能使用这些工具。您将需要让您的数据科学家查看结果,并考虑如何直接帮助公司成长。

为了成为一名好的数据科学家,需要多学习多少领域内的专业知识?在多大程度上您需要了解人们在网上的行为?这是否会帮助您开发新的产品?

在Quora,我从事了一个涉及理解用户参与度的项目。鉴于我自己是Quora的狂热用户,所以我很努力地去思考这个问题。当你拥有领域知识时,你拥有的一个优势就是,你甚至可以在查看数据之前,就对你好奇的内容做出更好的假设。然后,你可以再去查看数据,以获得更好的直觉,了解你之前假设对或错的原因。领域的专业知识和与之相关的直觉很有帮助,特别是如果模型很复杂,或者需要将其呈现给内部观众时。领域专业知识有助于分享有价值的故事,帮助你解释产品中人类行为的驱动因素。这与Kaggle上的一些数据集真的不同,那些数据有些甚至没有给出列名(因为隐私的原因),导致你不能完全了解你正在分析的数据。

当你拥有领域知识时,你拥有的一个优势就是,你甚至可以在查看数据之前,就对你好奇的内容做出更好的假设。

在求职的时候,您曾经在量化金融分析师与数据科学之间进行选择,最终选择了数据科学,这是为什么呢?做出这个决定是出于什么考量?

我认为量化金融工程师和数据科学都是很好的选择。我很确定数据科学对我来说是正确的选择,因为我很乐于看到技术如何改变世界,使一切工作得更好。我觉得我想成为其中的一部分。我觉得如果想要做到这一点,我需要成为一个拥有广大客户群体的科技公司中的一员,在那里我能够帮助它开发一个驱动人们完成某件事情的产品。

我也非常喜欢数据科学中教学和沟通这两方面——在哈佛大学担任统计学110助教时,我发现自己很喜欢那份工作。数据科学有很多这样的教学和沟通。而在量化金融中,你只需要上报你在背后做出来的结果就行了。

我想成为一些数据理念的传播者,并说服人们数据是有用的。我觉得科技行业非常有潜力的。对于科技来说,数据是非常新的一个概念,而对于金融来说,数据是一个很陈旧的概念了。能够在数据科学这个领域方兴未艾的时候踏足其中,我感到激情澎湃。我想与更多人一起,用技术去让人们的生活变得更好。

本文摘自《数据科学家访谈录》

《数据科学家访谈录》

Carl Shan(单研)等著

点击封面购买纸书

本书选取世界知名的25位数据科学家进行了深度的访谈,从不同的视角和维度,将他们的智慧、经验、指导和建议凝聚成册。每一篇访谈都是一次深度的交流,涵盖了这些数据科学家最初从菜鸟起步,运用各种知识武装和充实自己,一直到最终成为一名卓有成效的数据科学家的全过程。

通过阅读本书中的访谈,可以形成对数据科学的宏观认识和了解,更深刻地认识和体验数据科学家的角色,并且从这些前辈的过往经历中学到宝贵的知识和经验以应用于自身的成长和事业中。

扫码购买《数据科学家访谈录》e读版电子书,立减20元现金,输入优惠码:c4a86b-b ,相当于7.6元购书。

点击封面购书

今日互动

你所了解的数据科学家入行门槛很高吗?截止时间6月29日17时,留言+转发本活动到朋友圈,小编将抽奖选出1名读者赠送纸书1本和2张e读版20元异步社区代金券,(留言点赞最多的自动获得一张)。

推荐阅读

2018年5月新书书单(文末福利)

2018年4月新书书单

异步图书最全Python书单

一份程序员必备的算法书单

第一本Python神经网络编程图书

长按二维码,可以关注我们哟

每天与你分享IT好文。

在“异步图书”后台回复“关注”,即可免费获得2000门在线视频课程

点击阅读原文,购买《数据科学家访谈录》

阅读原文

原文地址:http://blog.51cto.com/13127751/2130974

时间: 2024-10-27 18:39:52

从本科生到数据科学家,为啥这个职业门槛高?的相关文章

《统计思维程序员数学之概率统计第2版》中英文PDF+数据代码+《面向数据科学家的实用统计学》中英文PDF+源代码+学习总结

作为一个程序员,我认为,不需要把数学全部学完,要选择合适自己的资料. <统计思维:程序员数学之概率统计(第2版)>以程序模拟的方式而不是数学教材上毫无来由的定理解释了大多数统计上的基本概念.<统计思维:程序员数学之概率统计(第2版)>,中文PDF,带书签目录,204页,文字可以复制.<统计思维:程序员数学之概率统计(第2版)>,英文PDF,带书签目录,225页,文字可以复制. 配套python源代码+数据. 下载:https://pan.baidu.com/s/1Jju

如何区分三个大数据热门职业–数据科学家、数据工程师、数据分析师?

随着大数据行业的逐步兴起,相关大数据的职业也成为热门职业,给人才的发展带来了很多机会.数据科学家.数据工程师.数据分析师已经成为大数据行业最热门的职位.那么它们又是如何定义的呢?有什么职责? 1.数据科学家是指能采用科学方法.运用数据挖掘工具对复杂多量的数字.符号.文字.网址.音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师). 2.数据工程师一般被定义成“深刻理解统计学科的明星软件工程师”.如果你正为一个商业问题烦恼,那么你需要一个数据工程师.他

如何区分三个大数据热门职业——数据科学家、数据工程师、数据分析师

随着大数据的愈演愈热,相关大数据的职业也成为热门,给人才发展带来带来了很多机会.数据科学家.数据工程师.数据分析师已经成为大数据行业最热门的职位.它们是如何定义的?具体是做什么工作的?需要哪些技能?让我们一起来看看吧. 1.这3个职业是如何定位的? 数据科学家是指能采用科学方法.运用数据挖掘工具对复杂多量的数字.符号.文字.网址.音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师). 数据工程师是如何定义的 数据工程师一般被定义成"深刻理解统计学科的

数据科学家可能成为2015年最热门职业

腾讯科技讯 1月3日,你擅长数学,会用Python编程,而且还对某个行业了如指掌? 如果你拥有这样的技能集,那你就有可能当上数据科学家.而如果你当上了数据科学家,那你的日子就可以过得风风光光了--LinkedIn的最新投票结果显示,"统计分析和数据挖掘" 是2014年最大的求职法宝. 美国招聘网站Glassdoor的报告称,数据科学家的平均年薪为118709美元(约合人民币737550元),而程序员的平均年薪为64537美元(约合人民币400974元).麦肯锡公司的一份研究预测称,到2

成为数据科学家并不难

几个菜鸟程序员在Coursera上免费注册学习了几天"机器学习"课程后,赢下了Kaggle预测模型建模大赛. 企业界在IT业制造的大数据人才恐慌(麦肯锡是始作俑者)中纷纷提高了对大数据和高级分析人才的期待和要求,数据科学家也一夜之间成为最性感的职业,其光环直追体育明星.数据科学家被描绘成神一般的人物,他们通晓数学.计算.社会学.物理学等各学科知识,同时又洞察世事,深谙企业运作之道,存世数量堪比特级珍稀保护动物.这些都让有志从事大数据分析的IT从业人员高山仰止,望而止步. 但越来越多的证

????????数据科学家

励志篇:IT屌丝如何成为数据科学家? 数据科学家 风格 7个月前 (09-26) 1359浏览 0评论 数据科学家被<财富>杂志誉为21世纪最性感的职业,但遗憾的是大多数企业里都没有真正的数据科学家人才.根据麦肯锡报告,仅仅在美国市场,2018年大数据人才和高级分析专家的人才缺口将高达19万.此外美国企业还需要150万位能够提出正确问题.运用大数据分析结果的大数据相关管理人才. 那么,对于不同职业经历和专业背景的IT人士来说,如何才能尽快转型,加入数据科学家的钻石王老五的行列呢? Ofer M

关于数据科学家现状的分析

从Kaggle上获取的这份数据集,是从超过15000个专业的数据科学家收集的数据,让我们对他们的偏好.工作.学习资源和技术水平有了一个非常好的了解. 以下的分析中,简单的从几个方面对数据科学家的现状进行分析. 我们有超过16716人的数据.由于问题的数量实在是太大了(总共超过300个),所以指望人们回答所有的问题是不现实的.换句话说,我们的大多数数据点都是空的. 从以下几点进行分析 性别 让我们看看回答者的性别比例 我们发现,我们的调查对象绝大多数都是男性.这反映了数据科学和一般技术领域的一个非

几个月就能化身为数据科学家?

关于做一名数据科学家,我有一些想法.成为一名数据科学家并不容易,需要付出很多努力,但如果你对数据科学充满兴趣,那一切都是值得的. 时常有人问我:如何成为一名数据科学家?必修的课程是什么?需要多长时间?你是怎么成为数据科学家的?我已多次回答过这些问题.所以在我看来,写一篇汇总的文章也许能帮助那些想要成为数据科学家的人. 关于我自己 我(俄罗斯,莫斯科)在密歇根州立大学经济学院获得硕士学位,并在 ERP 系统规划领域做了 4 年的分析师和顾问.我的工作涉及与客户交谈,讨论他们的需求并将其落地,编写文

为什么数据科学家们总是在离职的路上

相信在这个时代的当下,大家或多或少都有看到过类似"数据科学是21世纪最性感工作"的故事,以及数据科学家在这个时代显得是一份十分理想且具有超强吸金能力的工作.因为这个领域需要大量高技能人才,他们需要寻求解决复杂问题的办法(这对于"极客"来说是一件很有吸引力的好事).总之,大家的描述都让这份工作在技术人的眼中显得十分梦幻.可爱. 但事实是,正如英国<金融时报>在这篇文章中所说,数据科学家通常"每周花1-2小时寻找新工作".此外,文章还指出