大数据分析的几个新角色:数据科学家、数据分析师、数据(算法)工程师
数学科学家:(发明算法)
运用统计分析、机器学习、分布式处理等技术,从大量数据中提取出对业务有意义的信息,以易懂的形式传达给决策者,并创造出新的数据应用服务的人才。
对享有的模型进行优化、改进,所以涉及到对具体算法的精通和理解,并不断通过AB Test进行验证。
例如:Google的搜索PageRank算法的创始人拉里佩奇Larry Page,他是博士而且在读书期间创造的此算法。
李开复也应该算一个,解决中文搜索及尝试了语音识别的关键技术算法。
还有我司的客户信用评分模型也是MIT的高端开发设计出来的。
近期我们还没有应用或者发展到这个阶层,很少需要修改或者创造算法和模型来解决问题的层面,主要还在算法应用层面。
关键要求:IT技术知识,例如对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能;
数学、统计、数据挖掘,可以使用SAS、R等挖掘工具并对统计算法足够掌握;
数据可视化能力,可以把复杂的模型和数字逻辑通过易懂直观的展示方式
标杆人才:虚位以待,还有可能就是2012的诺亚方舟的。
数据(算法)工程师:(使用算法)
深刻理解统计学及挖掘分析工具的开发工程师,可以通过数据,借助工具和建模开发,解决一类业务问题的工程师。
关键时候需要客户化算法、修改算法解决关键问题。
关键要求:对统计学或者数学有一定理论背景,知道什么是逻辑回归,什么是T/F检验;
代码或模型开发能力,最好包括大规模非结构化数据处理能力;
特定行业和领域应用的经验会加速数据算法的开发和应用。
标杆人才:潘柱新+陈国富,他俩结合起来应该是我认识最牛的算法工程师了。
数据分析师:(使用数据)
数据分析师能洞悉一个方程式的商业意义。他们知道如何提出正确的问题,搜罗和管理相关的数据,通过数据探索和分析,佐以数据可视化、数据呈现或分析报告解决问题。
关键要求:
除了对数据的理解和把握,懂业务和懂工具(Excel、SQL是基础,SAS、SPSS是进阶等数据分析相关的工具)之外,还有两个容易被忽视的技能
懂分析:指掌握数据分析基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,以便有效的开展数据分析。
基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
懂设计:懂设计是指运用图表有效表达数据分析师的分析观点,使分析结果一目了然。图表的设计是门大学问,如图表的选择(什么时候用柱状图、什么时候用折线图,这是最基本的能力)、版式的设计、颜色的搭配等等,都需要掌握一定的设计原则。特别是42公里的漫长、富有创新的数据价值发现之旅,不能毁在最后一公里的呈现和报告中。
)
标杆人才:潘旭(即熟悉信用业务;又可以熟练使用分析方法;
懂一些SAS的工具;还懂可视化、图表、版式等高体验性设计),DMP项目中数据管理部的王刚也在成长中。