告诉你为什么要学习hadoop?

记得11年的时候在百度知道搜Hadoop相关的问题每天只有零星几个,那会我基本每天都要去看看有没我能回答的问题。现在去百度知道搜索Hadoop已经有800多万个问题。今天主要谈谈现在关于Hadoop的工作岗位都有哪些,希望对现在初学者能有一些帮助。

Hadoop是什么?hadoop是一个存储系统+计算框架的!主要解决海量数据存储与计算的问题。Hortonworks首席技术官Eric Baldeschwieler在2012年的Hadoop和大数据峰会上提到过:2015年,全球一半数据中都将通过Hadoop来处理。我们已经看到越来越多的数据都在往Hadoop上迁移。

Hadoop相关的工作目前大致可以分为三类:

1.Hadoop应用:

主要工作是编写MapReduce、pig、hive等脚本,进行数据分析或者数据挖掘,Hadoop对其只是个工具,实现业务仍然是主要目标。从事这方面工作你至少要懂一门编程语言,如java、python等。现在大部分的Hadoop书籍,培训机构都是往这方面培养。你只需要对Hadoop的框架有一个基本的认识,理解mapreduce编程模式,掌握一些调优技巧,那么你也就掌握了这门工具。从wordcount入手吧!推荐入门书籍<<Hadoop权威指南>>,<<Hadoop实战手册>>。

2.Hadoop运维:

主要负责集群的搭建,各种配置参数调优,一般故障处理,负责整个集群的稳定运行,这部分人才相对比较稀缺,也是用人单位非常需要的。从事这部分工作的同学理论上他可以不懂java,性格上要求做事比较严谨。如果你是比较喜欢钻研,你可以自己通过实验获取一些调优的方案,当然你也可以通过跟业界大牛交流获得一些方案。这些都不重要,重要的是你遇到问题能够很快的找到解决方案。这部分的工作经验就是靠积累出来的,跟你运维的集群规模大小也有关系。若有机会去大公司大集群进行这方面的工作,你的成长会很快。你若想通过看几个帖子的结论去蒙混过关,很容易被识破的。推荐书籍<<pro hadoop>>、Hadoop官网。

3.Hadoop框架改造:

不是所有的企业都设立这样的岗位,主要工作就是对Hadoop框架本身进行打补丁,改BUG,研究新特性,规划版本升级等。这方面就需要你深入Hadoop源码,时刻关注Hadoop官网,了解最新的版本的特性,把握Hadoop未来的发展方向。推荐书籍<<Hadoop技术内幕丛书>>。

最后推荐hadoop学习路线图hadoop的相关培训Hadoop大数据最佳实践研修班》,此课程主要让大家熟悉Hadoop分布式文件系统;了解MapReduce工作原理;熟知Hadoop集群硬件配置规划;懂得Hadoop集群配置及优化;学会如何维护和监测Hadoop集群;学会怎么使用Sqoop连接关系数据库进行数据导入导出;了解Hive数据仓库的开发和应用;Hue的web页面的数据库开发;精通Hbase列式数据库的开发;掌握大数据挖掘分析基础;了解数据挖掘常见的几种工具和对比;了解几种常用的挖掘算法原理;了解大公司对大数据的应用场景和未来方向有需要的同学可以了解一下。

这三类的工作是可以完全独立开来的,人的精力是有限的,每个人的性格兴趣也是不一样的,搞清楚你喜欢做的是哪块,再有的放矢去学习。

祝大家都能找到自己喜欢的那个岗位!

时间: 2024-10-12 11:42:49

告诉你为什么要学习hadoop?的相关文章

大数据和Hadoop什么关系?为什么大数据要学习Hadoop?

大数据是一系列技术的统称,经过多年的发展,大数据已经形成了从数据采集.整理.传输.存储.安全.分析.呈现和应用等一系列环节,这些环节涉及到诸多大数据工作岗位,这些工作岗位与物联网.云计算也都有密切的联系. Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台. 广义上讲,大数据是时代发展和技术进步的产物.Hadoop只是一种处理大数据的技术手段. Hadoop是目前被广泛使用的大数据平台,本身就是大数据平

Hadoop伪分布环境搭建——Linux环境配置

hadoop最近可以说是相当火,也勾起了我的兴趣,所以打算学习一下.想要学习hadoop肯定要先学会在自己的电脑上搭建一个hadoop伪分布环境.伪分布模式安装步骤的第一步就是要配置Linux环境.我自己的Linux是Ubuntu系统,不过只要是Linux系统,都大同小异,配置步骤基本没啥区别. 首先,需要进行本地网络配置.我们需要在linux系统下新增一个网络连接,自己设定好ip(ipv4)地址,子网掩码和网官.下图是我的设置: 接下来,还需要在window本地连接上也设置windows下的i

Pig安装及简单使用(pig版本0.13.0,Hadoop版本2.5.0)

原文地址:http://www.linuxidc.com/Linux/2014-03/99055.htm 我们用MapReduce进行数据分析.当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式,另一方面,编写MapReduce程序,发布及运行作业都将是一个比较耗时的事情. Pig的出现很好的弥补了这一不足.Pig能够让你专心于数据及业务本身,而不是纠结于数据的格式转换以及MapReduce程序的编写

Hadoop运维记录系列(十六)

应了一个国内某电信运营商集群恢复的事,集群故障很严重,做了HA的集群Namenode挂掉了.具体过程不详,但是从受害者的只言片语中大概回顾一下历史的片段. Active的namenode元数据硬盘满了,满了,满了...上来第一句话就如雷贯耳. 运维人员发现硬盘满了以后执行了对active namenode的元数据日志执行了 echo "" > edit_xxxx-xxxx...第二句话如五雷轰顶. 然后发现standby没法切换,切换也没用,因为standby的元数据和日志是5月

Hadoop学习笔记系列文章导游【持续更新中...】

一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急.但数据增长的速度往往比cpu和内存性能增长的速度还要快得多.要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容量的存储设备,价格往往也是天文数字.成本和IT能力成为了海量数据分析的主要瓶颈. Hadoop这个开源产品的出现,打破

Hadoop学习之从官网下载安装包

Hadoop是一个分布式系统基础架构,由Apache基金会所开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.要学习Hadoop从下载安装包开始 打开Hadoop的官方网站,点击Download Hadoop 或点击"Getting Started"节中的 Download Hadoop from the release page. 点击Download 点击Download a release now! 这里会显示一些下载的镜像站点,

深入浅出Hadoop实战开发(HDFS实战图片、MapReduce、HBase实战微博、Hive应用)

Hadoop是什么,为什么要学习Hadoop?     Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上.而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据

Hadoop应用开发实战(flume应用开发、搜索引擎算法、Pipes、集群、PageRank算法)

Hadoop是2013年最热门的技术之一,通过北风网robby老师<深入浅出Hadoop实战开发>.<Hadoop应用开发实战>两套课程的学习,普通Java开发人员可以在最快的时间内提升工资超过15000.成为一位完全精通Hadoop应用开发的高端人才. Hadoop是什么,为什么要学习Hadoop? Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式

Hadoop学习笔记(一)从官网下载安装包

Hadoop是一个分布式系统基础架构,由Apache基金会所开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.要学习Hadoop从下载安装包开始 打开Hadoop的官方网站,点击Download Hadoop 或点击"Getting Started"节中的 Download Hadoop from the release page. 点击Download 点击Download a release now! 这里会显示一些下载的镜像站点,