记得11年的时候在百度知道搜Hadoop相关的问题每天只有零星几个,那会我基本每天都要去看看有没我能回答的问题。现在去百度知道搜索Hadoop已经有800多万个问题。今天主要谈谈现在关于Hadoop的工作岗位都有哪些,希望对现在初学者能有一些帮助。
Hadoop是什么?hadoop是一个存储系统+计算框架的!主要解决海量数据存储与计算的问题。Hortonworks首席技术官Eric Baldeschwieler在2012年的Hadoop和大数据峰会上提到过:2015年,全球一半数据中都将通过Hadoop来处理。我们已经看到越来越多的数据都在往Hadoop上迁移。
Hadoop相关的工作目前大致可以分为三类:
1.Hadoop应用:
主要工作是编写MapReduce、pig、hive等脚本,进行数据分析或者数据挖掘,Hadoop对其只是个工具,实现业务仍然是主要目标。从事这方面工作你至少要懂一门编程语言,如java、python等。现在大部分的Hadoop书籍,培训机构都是往这方面培养。你只需要对Hadoop的框架有一个基本的认识,理解mapreduce编程模式,掌握一些调优技巧,那么你也就掌握了这门工具。从wordcount入手吧!推荐入门书籍<<Hadoop权威指南>>,<<Hadoop实战手册>>。
2.Hadoop运维:
主要负责集群的搭建,各种配置参数调优,一般故障处理,负责整个集群的稳定运行,这部分人才相对比较稀缺,也是用人单位非常需要的。从事这部分工作的同学理论上他可以不懂java,性格上要求做事比较严谨。如果你是比较喜欢钻研,你可以自己通过实验获取一些调优的方案,当然你也可以通过跟业界大牛交流获得一些方案。这些都不重要,重要的是你遇到问题能够很快的找到解决方案。这部分的工作经验就是靠积累出来的,跟你运维的集群规模大小也有关系。若有机会去大公司大集群进行这方面的工作,你的成长会很快。你若想通过看几个帖子的结论去蒙混过关,很容易被识破的。推荐书籍<<pro hadoop>>、Hadoop官网。
3.Hadoop框架改造:
不是所有的企业都设立这样的岗位,主要工作就是对Hadoop框架本身进行打补丁,改BUG,研究新特性,规划版本升级等。这方面就需要你深入Hadoop源码,时刻关注Hadoop官网,了解最新的版本的特性,把握Hadoop未来的发展方向。推荐书籍<<Hadoop技术内幕丛书>>。
最后推荐hadoop学习路线图和hadoop的相关培训《Hadoop大数据最佳实践研修班》,此课程主要让大家熟悉Hadoop分布式文件系统;了解MapReduce工作原理;熟知Hadoop集群硬件配置规划;懂得Hadoop集群配置及优化;学会如何维护和监测Hadoop集群;学会怎么使用Sqoop连接关系数据库进行数据导入导出;了解Hive数据仓库的开发和应用;Hue的web页面的数据库开发;精通Hbase列式数据库的开发;掌握大数据挖掘分析基础;了解数据挖掘常见的几种工具和对比;了解几种常用的挖掘算法原理;了解大公司对大数据的应用场景和未来方向有需要的同学可以了解一下。
这三类的工作是可以完全独立开来的,人的精力是有限的,每个人的性格兴趣也是不一样的,搞清楚你喜欢做的是哪块,再有的放矢去学习。
祝大家都能找到自己喜欢的那个岗位!