[转载]大数据人才流失: 科研为何陷入困境

[转载]大数据人才流失: 科研为何陷入困境


已有 5 次阅读 2014-5-13 12:27 |系统分类:观点评述    推荐到群组

无论无处不在的“大数据”概念引起怎样的联想,逐步增长的数据规模确是改变着我们和世界的交互方式。这在工业界、政界、媒体、学术界,几乎任何领域,都是事实。逐渐增强的对大数据进行收集、处理、抽象化,并从中得到启发的能力,拓宽了我们的知识面。

然而近年来,科学研究领域加速转变到以数据为核心,是有负面影响的。总结来说就是:称职的科学研究者需要的能力,和称职的工业界从业人员需要的能力,越来越无法区分。具有典型惰性的学术界刚刚开始适应这一转变,而其他领域早已开始大规模鼓励和奖励这种能力。不幸的是,这导致了很多有才的准研究者难以在学术界立足,只能投入财大气粗的工业界的怀抱。

数据的神奇效果

20世纪60年代,物理学家Eugene
Wigner发表了他的著作:数学在自然科学界的神奇效果。它论述了抽象的数学概念在上下文中的有效性,远远超过产生这些概念的上下文,其差距到了惊人的地步。毕竟,谁能想到Riiemannn在20世纪研究的非欧集合会是爱因斯坦重新思考万有引力的基础?谁又能想到,抽象固体的旋转群的编纂几乎最终导致了物理学家成功地预测希格斯玻色子的存在?

谷歌研究者Alon Halevy, Peter Norving和Fernando
Pereira于2009年以“数据的神奇效果”为题发表的文章响应了这一观点。文章展现其惊人的洞察力:只要有足够的数据,数学模型的斟酌选择不再重要—尤其是对他们所研究的自动语言翻译来说,“比起很少的数据及其精确模型,简单模型和大量的数据更有胜算”。

如果我们大胆假设这个观点可以延伸(至少是部分延伸)至自然语言处理之外,那么仅仅是数据挖掘这一项技能都会逐步打败领域知识。我相信这一预言已被证实:众多学术领域,有效地处理数据的能力正在取代其他更经典的研究模式。

我并不是说对某一领域的精通已经完全过时。如果不理解粒子相互作用理论,大型强子对撞机(LHC)产生的10Gb每秒的速度将一无用处,就像只有理解物理过程驱动空间爆炸的理论,大型天文望远镜(LSST)产生的每晚15TB的原图像数据才能帮助我们理解宇宙学。然而,LHC和LSST反映了越来越普遍的现象:科学研究结果完全依赖对大量数据的精确分析。实际上,我们发现,即使数据量并不足够“大”,能够对它们处理、抽象、挖掘和从数据中学习的研究者也在逐步促进科学进步。

新型科学家

从某种意义来说,数据驱动的研究是过去的研究趋势的简单延续。自16-17世纪科研分离出亚里士多德哲学,科学进步已基本依赖试验和观察。要知道,是第谷16世纪开创性的对天空的研究,促动了17世纪开普勒的行星运动规律的研究,继而为牛顿的万有引力定律铺平道路,最终形成爱因斯坦的广义相对论。科学家始终在努力处理数据,区别只在于这一努力如今正成为科学研究过程的核心。

不过,科学研究逐步以数据为中心已经产生了解决问题的新办法:进入LHC、LSST时代,善于运用高性能并行数据统计算法探索大量的群体性数据集的研究者,以及新的统计方法、机器学习算法、高速代码,以前所未有的规模重复进行典型分析的应用,推动了振奋人心的研究。简而言之,新型科学家一定是精通统计、计算、构建算法、软件设计、领域技能(可能作事后使用)的多栖专家。在粒子物理学、生物学、化学、神经科学、海洋科学、
大气物理学等几乎所有领域,研究越来越趋向于数据驱动,同时数据收集的速度丝毫没有放缓的迹象。

科学软件的基础作用

科学软件的共同点,是这些工作都离不开编写代码。高质量的、组织良好的公共代码才能对科学过程极为重要的重现产生影响。诸多公共软件都是关于当前的非再生性科学危机、新的出版形式的需要、新的研究、代码和数据公开访问。此处不再详谈更多。

此处我想详细讨论的是,优化的专业软件对大型数据集分析和抽象的核心作用,以及它成为现代科学研究的核心的演绎过程。我的合作者Gael
Varoquauz以及他的同事最近发表评论证实了这一观点(见Gael的简介),并就公共的,组织良好的健壮的科学代码对于现代科学研究的重现性和研究本身的进步都必不可少这一论点进行了实例研究。过去的研究结果,如果只是在论文中简单提及,而产生这结果的实际过程的代码未经组织,这样的结果就不能作为新的研究的基础。就像是Buckheit和Donoho曾说的:

学术期刊上的计算科学的文章并不是学术,他们只是学术的幌子。真正的学术是完整的软件开发环境,以及计算出数字的完整指令集。

公开代码看起来像是马后炮,但是一般来讲,仅仅发布代码是不够的。像Brandon Rhodes在Rupy 2013
Talk中说的那样,“一个程序运行正常,总好过它勉强能正常运行”。让代码对在科学研究之外的作者有用需要相当大的投入。这种项目具有难以估计的价值,就像NumPy项目,Scikit-learn项目,等等。它们为研究者提供一个框架,在此框架下,代码可以共享,在github上共同审阅和发布,以此造福研究社区。

学术界的断层

这是学术界的弊病:尽管有层次的高质量软件正成为现在的科学研究模式的核心,并且这些实践将有助于学术研究的成功,学术界却非常成功的阻止了这一实践。“发表或者毁灭”的模式中,论文制约着大多数研究型高校,相当于学术奖励框架的货币,而花费在构建和编写软件工具上的时间统统不算是写论文的时间。这就导致,除非是某种特殊情况,专注于可复用的开放软件的人很难在学术界获得晋升的机会。这些可怜的人们,期待着在科学软件的发展而不是研究论文中获得成就,往往会发现他们已置身于学术群体的边缘。

某种程度上,这种断层一直存在。学术界总奖励某些技能,而损害其他技能:教学就是一个长期被边缘化的技能。然而这其中的两个主要的区别使得学术界的断层更加令人担忧:

  1. 前面提到的构建和编写软件工具的技能,正滑向学术奖励框架边缘,而它恰恰是现代的研究能否成功的关键

  2. 几乎全世界都在使用密集数据挖掘工具的同时,学术界忽略的不以为然的技术正是工业界最看重最鼓励的

这场风暴导致技术纯熟的研究者渐渐滑离研究而偏向工业界。学术界尽管也存在专注于软件的工作,但那些工作基本薪水很低,没有地位,也没有晋升及机会。与之相比,工业界吸引力超高:它致力于解决有趣的紧迫的问题,提供优越的薪水和福利,帮助博士后从工作站之间的迁徙中解脱出来,甚至鼓励基础课题的研究和发表。这种情况下还能留在学术界简直是奇迹。

我所研究的天文学和天体物理领域尤其让人担心。LSST项目正在筹备这一个十年底的第一个目标:十年内能够实时处理每晚30TB的数据,这一目标极其激进。要处理这样大量的数据,未来几年,这个项目可能要招募数十名以数据为中心的天文学研究者。考虑到所需技术和当前的薪酬水平,以及学术界面向工程的工作的发展前景,我很怀疑它能够吸引到足够的应聘者。

学术界该如何适应

不止我一人在考虑这些问题。我和国内外很多人们讨论过文中提到的一些话题,了解到有些制定政策的人们和资助机构也正在思考这些严峻的问题。但是更现实的问题是怎样解决这些问题,阻止它恶化。抱怨学术界的文化是学者们的常事,Deidre
McCloskey的“学术威望法则”印证了本文的一些观点:越是实用的领域,越没有地位。这话原是在哀叹基本的论文像是新手的作品从而地位低下,却很适用于现在的主题。

我认为威望才是关键:学术界采取审慎的措施追赶工业界的脚步,对于数据驱动的研究必不可少的软件,给予其开发者更多的声望,才是解决这些问题的办法。研究者,资助机构和制定政策的人们也可以采取行动来促进这一过程。以下是一些建议:

  1. 学术刊物持续强调可重现的重要性。可重现性是科研过程本身必不可少的要素,而它依赖于开源的高质量代码。将这些代码视作论文发表的重要组成部分,能够提高软件开发者在学术团体的地位。

  2. 推动建立终身制教授评价的新标准。新的标准同时考量公共软件的开发和维护以及传统的论文发表和教学,这样投入到编写整洁的公共代码的时间就不会再被遏制。

  3. 创建并资助新的学术就业体制,帮助博士毕业生、博士后研究员、研究员和终身教授的就业。就业职位应特别看重和奖励公共的,跨学科的科研软件的开发,从而为愿意构建和维护通用的基础软件的研究者提供可行的学术职业发展道路。

  4. 提高博士后科研职位的薪酬。这个建议可能存在争议,但现在的薪酬水平根本无法保持下去。NIH职位为应届毕业的博士后提供的基本工资是每年四万刀以下。博士后工作七年涨到每年五万刀。若精通构建和维护软件工具的应届博士后就职于工业界,薪水会多出好几倍,并且工业界尊重他们的计算能力,他们也可以运用这些能力研究自己感兴趣的问题。我很担心,学术界不及时作出这些调整的话,未来几年的科学研究将遭遇严重的障碍。

我们生活在一个振奋人心的时代,加速增长的收集、存储、处理和学习海量数据的能力,使得我们对世界的科学认识的宽度和广度都在增加。要保持这探索新事物的节奏,我们需要激励研究人员安于研究团体。这不是轻而易举能解决的问题,但是努力才能保证科研在未来可以健康和可持续的发展。

我衷心的感谢众多参与讨论和推动这些想法的同事,尤其是Bill Howe以及Fernando Perez。同时也感谢我的好朋友Will
Mari(@willthewordguy)的审阅和反馈。

原文链接:
http://jakevdp.github.io/blog/3013/10/26/big-data-brain-drain
译文链接:
http://blog.jobbole.com/67426/

[转载]大数据人才流失: 科研为何陷入困境,布布扣,bubuko.com

时间: 2024-08-06 11:46:40

[转载]大数据人才流失: 科研为何陷入困境的相关文章

Java大数据人才应用领域广,就业薪酬高

互联网创造了大数据应用的规模化环境,大数据应用成功的案例大都是在互联网上发生的, 互联网业务提供了数据,互联网企业开发了处理软件,互联网企业的创新带来了大数据应用 的活跃,没有互联网便没有今天的大数据产业.没有互联网.云计算.物联网.移动终端与 人工智能组合的环境大数据也没那么重要.大数据的价值并非与生俱来而是应用创新之结果 ,价值是由技术组合创新涌现出来的.离开环境的支持大数据毫无价值,就像离开了身体的 手不再有手的功能一样. 随着2017年大数据各种应用的发展,大数据的价值得以充分的发挥,大

大数据人才缺口多大?data大数据工程师好就业吗?这是大家学习大数据最关心的问题

小编来告诉你,大数据工程师年薪50万以上,技术人员缺口150万,高端技术人才未来会遭到企业疯抢.大数据方向由于人才稀缺度较高,薪资普遍更高,待遇涨幅也会超过其他岗位.接下分析大数据人才缺口和data工程师就业的问题. 高薪的背后是人才的紧缺,根据主流数据媒体调查,全国目前的大数据人才仅46万,未来3-5年内大数据的人才缺口将高达150万.有机构对一线城市2018年国内科技领域热门职位薪酬范围及跳槽涨幅进行了预测: 大数据方向由于人才稀缺度较高,相同工作年限的情况下,大数据工程师的薪资普遍更高,待

2018年大数据的三大趋势和三大困境

一家公司的数字化改造应该从清晰的趋势和障碍出发,更好地规划出一条通往其所寻求业务成果的路线.考虑到这一点,以下是我们关注的三大数据趋势,以及在数字时代可能出现在企业和成功之间的三大困境. 三大趋势 1.真实的机器学习 2018年6月2日,由云豆数据主办的<大数据时代趋势论坛暨中国名优精品推介会>在山东济南银座颐庭大酒店如期举行,300多位企业家从全国各地齐聚济南,对大数据时代的来临.迎接大数据时代的机遇与变革.以及大数据为实体企业经济带来的发展进行探讨和交流. 我们坚信,机器学习.人工智能未来

加米谷大数据:2018年大数据依然是认知误区+人才紧缺

大数据现在很热,企业.个人都在谈论,每个人对大数据有着自己不同的看法和观点,很多朋友对大数据仍然具有一些观念上的误区,比如很多人会认为大数据是一个最新的技术,还有一些朋友认为多有数据只服务自己一个人等等. 大数据不是一项最新技术 大数据现在已经融入我们的生活,人们在日常工作办公的时候都会接触到大数据,这些大量数据总会以不同的形式,以及庞大的数量存在和运用,这也导致了很多朋友认为大数据是当今一项最新的技术.其实不然,大数据可以算是一项新的术语或技术词汇,但是针对于大数据的海量数据分析的概念和技术层

从事大数据行业对人才的能力有什么要求?

大数据行业越来越受欢迎,同时对大数据人才的的能力和要求也日益增加,大数据对人才的能力有什么要求?学习大数据需要具备哪些能力?企业最喜欢什么样的人才?科多大数据带你来一一解开. 大数据从业者大致可归为大数据工程师.数据分析师和数据科学家三类岗位.大数据人才之所以抢手,是由于目前市场急缺这样一批高素质的复合型数据人才. 最受企业欢迎的数据人才必备能力: 1.大数据人才需要具备成熟的数据思维 计算机.数学.统计学等相关专业,1年以上相关工作经历:其中承担大数据技能相关工作经验要丰富:熟悉大数据技术.熟

大数据分析师培训项目

摘要:Big Data“大数据”是继云计算.物联网之后IT产业又一次颠覆性的技术变革.对国家治理模式.对企业的决策.组织和业务流程.对个人生活方式都将产生巨大的影响.美国将大数据提升为国家战略,中国虽然还没有明确提出,但已经把大数据上升为与国防一样的高度.我国政府对大数据的敏感度快速提高,并正在采取措施.所以说,中国已经步入大数据时代,这种重视是由政府层面自上而下进行普及的,可能还未普及到普通百 大数据分析师培训项目 课程背景 Big Data“大数据”是继云计算.物联网之后IT产业又一次颠覆性

从大数据的应用谈如何成为大数据大师的历程

以下数据显示,中国大数据IT应用投资规模,应用以五大行业最高,其中以互联网行业占比最高,占大数据IT应用投资规模的28.9%,其次是电信领域(19.9%),第三为金融领域(17.5%),政府和医疗分别为第四和第五,请看如下图: 根据国际知名咨询公司麦肯锡的报告显示:在大数据应用综合价值潜力方面,信息技术.金融保险.政府及批发贸易四大行业潜力最高,具体到行业内每家公司的数据量来看,信息.金融保险.计算机及电子设备.公用事业四类的数据量最大,因此:无论是投资规模和应用潜力来看,信息行业(互联网和电信

鄂维南院士谈大数据:市场非理性、活动多信息量少

"我们的市场是无理性的发展.现在开的会非常多.新闻非常多,新闻里面真正的信息量非常少,整个市场的发展是非理性的."这是北京大数据研究院院长.中科院院士.北京大学教授鄂维南在2016中关村大数据日活动暨京津冀大数据协同发展高峰论坛对当前中国大数据行业特点所谈到观点. 2016年12月12日,2016中关村大数据日活动暨京津冀大数据协同发展高峰论坛在中关村国家自主创新示范区展示中心会议中心召开.本次活动以"数据驱动创新.智慧引领未来"为主题,聚焦京津冀大数据协同发展,近

大数据要少说多做

与云计算当初遇到的问题一样,大数据也面临如何"做实"的问题.在已经认识到大数据的重要性和必要性的基础上,企业要做的是更"智慧"地处理大数据,在大数据的应用和商业模式上进行创新. 8月22-24日,2014中国大数据国际高峰论坛在上海举行.记者随机采访了几位与会嘉宾,他们几乎异口同声地表示:大数据当前最紧迫的任务是加速落地,不能光讲概念,关键还是利用大数据为业务服务,促进应用创新. 不要太浮躁 "浮躁",这是天云大数据首席执行官雷涛对当前中国大数据