Hadoop World大会的分析家与IT经理们告诉了Hadoop对于企业是多么的重要。一位来自Forrester 研究所的分析家Kobielus指出 ,“Hadoop是一种新型的数据仓库,它是企业内部的一种新型数据来源”。相比于传统的关系型数据库,Hadoop的优势在于它能储存与管理更多的结构 化与非结构化的数据。
如今的大数据时代,为了开拓客户,提升业务水平,企业需要更加关注对数据的存储与分析,这些数据来自各个方面,比如微博、网站点击率,社交媒体内容等。 那么一个直接的问题是,由谁来分析这些数据?如何分析这些数据?很显然,是需要那些具有高级数据分析能力的专业人士,具体来说,他们的能力应该包括:数据 分析、数据挖掘、预测建模、自然语言处理、内容分析、文本分析以及社交网络分析能力等。对于Hadoop来说,他们还必须学会使用MapReduce来预 测和统计建模。不仅如此,对于Hadoop平台的管理人员而言,他们必须能够胜任Hadoop集群、安全性管理以及性能优化等工作。 Kobielus还谈到,“Teradata和Oracle Exadata的数据库管理员也开始纷纷向Hadoop集群管理员转型。他们意识到这是一个全新的领域。”当然,这些专业人士也会把现有的关系数据库的相 关策略带到Hadoop平台上。
一位从事Hadoop相关软件的销售主管指出,“目前针对Hadoop专业人士的需求可以分为三类,分别是数据分析家/数据科学家、数据工程师、IT数据管理专业人士。”
第一类是Hadoop数据分析家,他们熟知如何选择、安装及管理Hadoop集群。他们将决定是否部署云端Hadoop,选择哪些Hadoop供应商、 如何分配Hadoop资源、配置集群,以及如何调试与运行Hadoop应用程序等。在这一点上,与传统关系型数据库以及数据仓库的数据分析家相比,可谓是 大同小异。
第二类是Hadoop数据工程师,他们主要负责数据的处理,实现MapReduce算法。随着企业Hadoop应用的日益增长,那些具有Java、C++等编程经验的工程师将会找到更多的工作机会。
第三类是Hadoop数据管理员,他们通常具有SAS与SPSS以及编程能力的专业数据科学家。他们熟知如何在Hadoop环境中如何创建、分析、共享,集成BI。
目前的形势是Hadoop人才短缺,一些公司不得不依赖Hadoop厂商提供部署等技术支持。Cloudera、MapR、Hortonworks以及IBM这些等Hadoop厂商公司目前现在提供Hadoop相关技术培训课程,来帮助企业部署Hadoop中心。
推荐国内的首款大数据可视化分析软件——大数据魔镜,有兴趣的可以看看。