参与文末话题讨论,每日赠送异步图书
——异步小编
William Chen是Quora的一位数据科学家,在那里他协助Quora发展壮大,为这个世界分享知识。在拿到哈佛大学的统计和应用数学双学位之后,他直接成了一位数据科学家,也是世界上第一批在校期间接受了完整的数据科学课程并且最终在毕业之后直接加入了数据科学领域的学生之一。全职加入Quora之前,他曾经在Quora和Etsy做数据实习生。他很喜欢讲述各种与数据有关的故事,并且也在Quora上广泛地分享他的知识。
William也是《数据科学家访谈录》的联合作者之一。
您能告诉我们一些一路走来进入数据科学领域的故事吗?
在哈佛大学的第一年,我开始想要学习数学,不过最终选择了Joe Blitzstein的统计110课程。那门课改变了我思考不确定性问题以及日常事务的方式,同时让我明白了直觉与沟通的价值。在那门课的影响下,我在第二年将专业转为统计学。
大二的时候,我开始四处寻找实习机会,期待能将自己的一些概率和统计知识用起来。我在当时主要只拥有理论知识,对于应用开发实在知识有限,当时我惊喜于Etsy主动邀请我加入他们公司实习,职位是一名数据分析师。这是我第一次尝试使用数据来提高公司业务——实习在各个方面都帮助了我成长,磨练了我的技术,让我成了一个初露头角的数据科学家。
Etsy是一个基于数据指标的公司,我能够清楚地看到并且理解Etsy公司的最重要核心业务主要是依赖于A/B测试的一些算法。大家在邮件中频繁地交流着各种统计知识,并且让我能够了解各种常见技术,知道以数据指标为业务驱动的科技公司的一些潜在软肋。
Etsy的数据展示效果很漂亮(D3的仪表板和高亮幻灯片桌面)。在那样一个重视可视化的公司环境下,我自学了ggplot2,开始制作自己的图片。在那段实习中我学到了很多东西——这是我作为数据科学家职业的第一步。
在Etsy的实习结束后,我开始了自己的大三生涯。那一年,我回到哈佛,成了一名统计110课的助教(相当于协助本科生教学的助理)。
通过帮助人们解决他们遇到的概率问题,我意识到教授统计学能够帮助我改善我的沟通能力和讲故事的能力。这也很有趣,并且我也更习惯去与别人分享自己的所学。
如果没有足够强大的编程知识供你实现自己的统计想法,你可以做的东西就会受到很多的限制。
大三那一年,我也开始上更多的计算机课程,我意识到了它们在数据科学中的重要作用。如果没有足够强大的编程知识供你实现自己的统计想法,你可以做的东西就会受到很多的限制。我意识到要想成为一名成功的数据科学家,统计和计算机两者都是不可或缺的,所以我通过上与这两者有关系的课程去尝试成为一名统计与计算机交叉领域的专家。
大三的时候,我也申请了一些实习,我的想法就是要使用自己的统计和编程技巧来帮助公司做出更好的决策。我收到了Quora的实习Offer并且接受了它,尽管我当时对于产品依然一无所知。
在Quora,我接触到更多的代码库,学习了更多关于软件工程的知识。我对自己的项目永远都很重视,并且也非常勤于思考它们。我接手的项目涉及公司新的增长计划,我喜欢Quora公司的自由度以及它对于员工的信任态度。我喜欢与他人打交道,也很喜欢那里的各种产品,所以我决定毕业之后回到Quora做全职工作。
大四时,我继续研究统计和各种编程工具,并且完成了我的毕业论文。
您在一开始为什么选择了统计学而不是计算机科学?
我把大量的时间放在统计110和一大堆其他统计类课程中了——我喜欢这些课程,所以对我来说完全没有理由选择别的专业!
在Etsy公司实习期间,我亲眼看到了如果我只能做统计而无法做编程工作的话,工作能力将是多么有限。那年夏天,我花了很大力气学习使用R语言来分析数据。
我在大三和大四两年,差不多都选择了相同数目的统计和计算机科学课程。通过选修计算机课程,我可以更高效地做统计分析。我选择那些能够让我更好地应用统计的课程(机器学习、并行编程、网络开发、数据科学)或者只是因为它们是非常有趣的某些数学课题(数据结构和算法、经济学和计算机科学)。
我的主要兴趣依然是统计,但我非常重视计算机科学,因为它能够让我做更复杂的分析,生成可视化图片,同时处理大量的数据,并自动化很多我的工作,这样我就可以专注于非常有趣的一些问题了。
我甚至在大四上学期申请了计算机科学的第二学位。我恰好已经满足其毕业要求(这绝对是不小心的)并且足够去申请第二学位证了,因为我不需要做什么其他努力了,只需要做一些文件盖章工作就行了。
您可以更多地告诉我们一些您在实习过程中遇到的比较棘手的问题吗?
为以数据为中心的科技公司工作的一个令人兴奋的事情就是有很多潜在的项目需要你去解决。有很多数据可以分析,他们从来没有足够多的数据科学家去真正深入研究其中的所有事情。我在实习期间的主要挑战,特别是在Quora,就是弄清楚如何考虑自己在做的一堆事情的优先级,尤其当自己同时在做许多项目的时候。
在Quora,我意识到我无法在同一时间处理所有事情,这是我在学校里做事情的方式。我意识到我需要优先考虑对公司影响最大的事情。如果我花了太多时间在某些软件上,就可能没有足够的时间去专注研究那些可能具有更高影响力的增长计划。
您如何看待人们说“数据科学是数学、统计和计算机科学的交叉学科”?您觉得它们在其中的权重是怎样的?
我觉得,编程和软件工程部分非常重要,因为你可能希望自己去实现模型,编写仪表板,并以一些很新颖的方式去提取数据。你将是负责转移存储自己的数据的人。你将成为拥有端到端和全栈开发能力的人员,完成从提取数据到做成报告、展示给公司看的整个过程。
帕累托原则(Pareto principle)在这里充分发挥作用。80%的时间都是用于爬取数据、清理数据并编写代码进行分析。我在实习期间发现这个说法真的不假(特别在当时我是初入行的人)。出色的编码知识在这里尤其重要,可以节省大量的时间,让你也不那么容易遇到挫败感。
我要强调的是:获取数据并确定如何处理数据需要花费大量的时间,而且这部分通常不需要任何统计知识。这部分大多数都是利用软件工程技术去清理数据,或者撰写高效的查询代码去数据库中移动和分析你的数据。编程在这里真的很重要。
有一件值得一提的有趣的事情是,在数据科学中使用的统计学与你在研究论文中读到的统计学真的不一样。公司对于统计方法的选择有在速度、可解释性和可靠性方面的偏向,而不是理论上的完美无缺。
你越是了解统计或者算法的底层机制和原理,你就可以越好地阐明自己正在做什么,并与团队的其他成员沟通。
虽然公司用到的统计学和数学可能并不复杂,数学和统计学的扎实基本功依然在你需要区分真实洞见和虚假结果的时候显得非常重要。此外,牢固的基本工和经验将让你有更好的直觉去思考如何解决公司中更为棘手的问题。你可能对于为什么某个指标突然下降有更好的直觉上的解释,或更清楚为什么人们突然选择了你的产品。
强大的统计数学和数学背景的另一个好处是对沟通的贡献。你越是了解统计或者算法的底层机制和原理,你就可以越好地阐明自己正在做什么,并与团队的其他成员沟通。作为数据科学家,你的大部分工作都是向人们展示你觉得在未来会有重大影响力的成果。沟通对于实现这一点非常重要。
一些数据科学岗位需要非常强大的统计或机器学习背景。因为它们可能需要你去开发feed自动推送或者其他推荐引擎,或需要你知道如何完成时间序列分析、基本的机器学习技术、线性回归和因果推理等问题。有很多种类的数据是需要更高级的统计方法才能完成分析的。
计算机科学、统计学和数学之间的平衡将取决于你的岗位,这是我的观察结论。
您如何看待目前大部分加入数据科学界的人都拥有博士学位这一现象?
数据科学是现在的一个新领域,招聘者正在寻找有能力成为数据科学家的人才。因为这是一个全新的领域,不是很多人在这方面有过经验,所以你必须找到一些能够表征他们在未来能够胜任这个工作的人才。拥有计算/定量的研究背景的博士们通常是一个很好的选择,因为他们已经做了大量的研究和数据工作。具有数据处理经验的博士和硕士生通常已经具备了数据科学界的很多素质:能够快速学习,提出问题,并且具有灵活性。
我认为公司在未来会开始招聘越来越多的本科生去担当数据科学家的角色,在5~10年内,将有更多符合数据科学这个领域需求的人才出现。哈佛大学有那么多的二年级学生,他们中肯定有人想要成为数据科学家,例如当时大二的我。我认为他们也会将这看作一个充满希望与激动人心的职业方向,我个人也是这么看的。
具有数据处理经验的博士和硕士生通常已经具备了数据科学界的很多素质:能够快速学习,提出问题,并且具有灵活性。
目前,有大量MOOC(公开在线课程)提供课程和证书,而世界各地的大学正在提供他们的第一个数据科学课程。例如,哈佛的第一个数据科学课程和第一个预测模型课程在2013——2014学年出现。这些课程对于想要学习数据知识的本科生来说是完美的起点。
如果你想聘用数据科学家,就当下而言恐怕有经验的人真的不多,那些拥有博士和硕士学位的人是很好的候选人。这种情况可能会在未来五到十年内改变,因为会有更多的本科生也拥有合格的数据科学技能要求。
现在在Coursera已经有数据科学这个专业方向了,在哈佛,有Joe Blitzstein和Hanspeter Pfister在教授数据科学课程。Joe就是教授那门我所喜爱的统计课的教授。
2014年春季,哈佛开设了一个预测建模课程。这是一个专注于Kaggle比赛的课程。这类课程对于想要从事数据领域工作的本科生来说是完美的起点。
如果可以回到大学的时光,您会把更多的精力放在哪里?有什么您觉得当时忽视了的东西?
我认为我在大学课程选择方面的最大遗憾是没有在大一学年选修编程课程。编程在数据科学中如此重要——除非是谷歌或亚马逊这样的巨大公司,否则几乎不会有纯粹的不用写代码的统计学家职位,因为这些巨大的公司可能需要专门研究统计人员。编程是非常重要的,你不能逃避它。
当谈及术语“数据科学”时,很多人担心或者声称在这个领域有很多炒作,因为它被夸大了。您对这样的观点有什么看法?
现在对于数据科学的炒作确实有点过了,就像云计算和手机/本地化/社交平台热潮一样。然而,它被夸大并不意味着它并不重要。我认为在未来几年,炒作和泡沫将会不复存在,但数据科学的重要性不会。
您认为数据科学家的需求会随着软件工具的优化而渐渐消亡吗?
就我个人而言,我很喜欢各种新的软件工具。我认为数据科学家的工作将在未来几年内发生变化,因为程序工具会变得越来越好。
不过,我不认为数据科学家的需求将会减少,因为我们总是需要能够解读结果的人,并将洞察力提炼成可行的计划来改善业务。数据科学永远不缺困难的问题——人们总是需要解释结果并交流想法。我认为数据科学就是这样——它将数据转化为可行的结论,用以改善产品和业务。
我们总是需要能够解读结果的人,并将洞察力提炼成可行的计划来改善业务。
软件工具可能会使某些数据科学家做的工作被淘汰,因为一些创业公司会提供企业级别的全面解决方案,以及将某些数据方面的任务商业化。但是即使使用了新的工具,我们也依然需要数据科学家去依赖人类智能使用这些工具。您将需要让您的数据科学家查看结果,并考虑如何直接帮助公司成长。
为了成为一名好的数据科学家,需要多学习多少领域内的专业知识?在多大程度上您需要了解人们在网上的行为?这是否会帮助您开发新的产品?
在Quora,我从事了一个涉及理解用户参与度的项目。鉴于我自己是Quora的狂热用户,所以我很努力地去思考这个问题。当你拥有领域知识时,你拥有的一个优势就是,你甚至可以在查看数据之前,就对你好奇的内容做出更好的假设。然后,你可以再去查看数据,以获得更好的直觉,了解你之前假设对或错的原因。领域的专业知识和与之相关的直觉很有帮助,特别是如果模型很复杂,或者需要将其呈现给内部观众时。领域专业知识有助于分享有价值的故事,帮助你解释产品中人类行为的驱动因素。这与Kaggle上的一些数据集真的不同,那些数据有些甚至没有给出列名(因为隐私的原因),导致你不能完全了解你正在分析的数据。
当你拥有领域知识时,你拥有的一个优势就是,你甚至可以在查看数据之前,就对你好奇的内容做出更好的假设。
在求职的时候,您曾经在量化金融分析师与数据科学之间进行选择,最终选择了数据科学,这是为什么呢?做出这个决定是出于什么考量?
我认为量化金融工程师和数据科学都是很好的选择。我很确定数据科学对我来说是正确的选择,因为我很乐于看到技术如何改变世界,使一切工作得更好。我觉得我想成为其中的一部分。我觉得如果想要做到这一点,我需要成为一个拥有广大客户群体的科技公司中的一员,在那里我能够帮助它开发一个驱动人们完成某件事情的产品。
我也非常喜欢数据科学中教学和沟通这两方面——在哈佛大学担任统计学110助教时,我发现自己很喜欢那份工作。数据科学有很多这样的教学和沟通。而在量化金融中,你只需要上报你在背后做出来的结果就行了。
我想成为一些数据理念的传播者,并说服人们数据是有用的。我觉得科技行业非常有潜力的。对于科技来说,数据是非常新的一个概念,而对于金融来说,数据是一个很陈旧的概念了。能够在数据科学这个领域方兴未艾的时候踏足其中,我感到激情澎湃。我想与更多人一起,用技术去让人们的生活变得更好。
本文摘自《数据科学家访谈录》
《数据科学家访谈录》
Carl Shan(单研)等著
本书选取世界知名的25位数据科学家进行了深度的访谈,从不同的视角和维度,将他们的智慧、经验、指导和建议凝聚成册。每一篇访谈都是一次深度的交流,涵盖了这些数据科学家最初从菜鸟起步,运用各种知识武装和充实自己,一直到最终成为一名卓有成效的数据科学家的全过程。
通过阅读本书中的访谈,可以形成对数据科学的宏观认识和了解,更深刻地认识和体验数据科学家的角色,并且从这些前辈的过往经历中学到宝贵的知识和经验以应用于自身的成长和事业中。
扫码购买《数据科学家访谈录》e读版电子书,立减20元现金,输入优惠码:c4a86b-b ,相当于7.6元购书。
今日互动
你所了解的数据科学家入行门槛很高吗?截止时间6月29日17时,留言+转发本活动到朋友圈,小编将抽奖选出1名读者赠送纸书1本和2张e读版20元异步社区代金券,(留言点赞最多的自动获得一张)。
推荐阅读
长按二维码,可以关注我们哟
每天与你分享IT好文。
在“异步图书”后台回复“关注”,即可免费获得2000门在线视频课程
点击阅读原文,购买《数据科学家访谈录》
原文地址:http://blog.51cto.com/13127751/2130974