大数据Hadoop核心知识入门学习注意事项

今天来介绍新手学习hadoop的入门注意事项。这篇文章一来谈谈hadoop核心知识学习。

  

  首先hadoop分为hadoop1.X和hadoop2.X,并且还有hadoop生态系统,那么下面我们以hadoop2.x为例进行详细介绍:

  Hadoop的核心是mapreduce和hdfs。

  Mapreduce:mapreduce是很多人都需要迈过去的槛,它比较难以理解,我们有时候即使写出了mapreduce程序,但是还是摸不着头脑。我们都知道mapreduce是一种编程模型,那么它能干什么,对我有什么用。它的原理是什么,为什么我们编写了map函数,reduce函数就可以在多台机器上运行,这些问题或许都给初学者带来了困扰。

  那么我们就要了解:

  什么是mapreduce?

  Mapreduce的工作原理是什么?

  Mapreduce的工作流程是什么?

  Mapreduce的编程模型是什么?

  shuffle是什么?

  partition是什么?

  combiner是什麽?

  他们三者之间的关系是什么?

  map的个数由谁来决定,如何计算?

  reduce个数由谁来决定,如何计算?

  mapreduce熟悉了,还有一些问题困扰着初学者,虽然有了Java基础,但是我们需要搭建开发环境,该如何搭建开发环境?

  那么就需要我们学习Windows上如何使用Eclipse远程连接Hadoop并进行程序开发

  因为在操作mapredcue过程中伴随着操作hdfs,就像我们传统开发,编程是离不开数据库一样。hdfs可以理解为传统编程的数据库,但是其实他不是,真正的数据库是hadoopdatabase,也就是hbase。好了下面,我们开始讲如何学习hdfs:

  HDFS:我们至少应该学习以下内容

  什么是HDFS及HDFS架构设计?

  HDFS体系结构简介及优缺点?

  Hdfs如何存储数据?

  Hdfs如何读取数据?

  Hdfs如何写入文件?

  Hdfs的副本存放策略?

  如何访问hdfs?

  Hdfs数据如何复制?

  Namenode的热备?

  hadoop生态系统内容还是比较多的,但是最常用的是hive,hbase。

  Hive是初学者进入大数据(hadoop)行业最好的选择入口,因为它提供了简单的类sql语句,使得不懂得mapreduce程序编写的学员也能够很轻松的进入大数据行业。所以建议大家(尤其是零基础的学员)在学习hadoop的过程中,可以着重加强对hive的学习,尤其是hive语句的熟练操作。当然对于有数据库基础的学员学习hive就更容易一些。

  Hbase是一种nosql数据库,只有当数据量非常大时,比如TB、PB级,hbase才能发挥出很好的效果,所以对于致力于加入大公司的学员,可以深入学习hbase,尤其是hbase表的设计,rowkey的设计,hbase性能的调优,hbase和hive、impala的结合等。

  Yarn是分布式集群资源管理框架,也是hadoop2.x和hadoop1.x明显不同的地方,所以我们还是有必要对yarn的原理、框架、组成部分进行详细的了解的。

  对于hadoop其他的组件:比如海量日志收集工具flume,数据导入导出工具sqoop,应用程序协调服务zookeeper,学员可以结合实战项目学习其原理,如何使用即可。

  对于想从事数据挖掘的学员,可以深入学习mahout、机器学习、算法等相关知识,根据学员自己的职业选择和兴趣爱好自主选择,建议零基础的学员最好是先从hive入手。

  Storm是一种基于流的计算框架,spark是基于内存的计算框架,它们是不同于mapreduce的计算框架,但作用都是对数据的处理和分析,建议初学者在学习好mapreduce的前提下,可以对storm和spark进行深入的学习,切记贪多嚼不烂。通而不精。

  如果想更加深入的学习,丰富自己的知识,可以选择性的学习一下shell、python脚本语言,Redis、MongoDB等nosql数据库,如果想做hadoop运维的,也可以学习ganglia和nagios等监控工具。

  最后建议大家在学习过程中一定要由浅入深、从简单到复杂、理论和实践相结合,由于hadoop生态系统的工具比较多,每个工具有不同的侧重点,所以再次提醒大家切记贪多、切记浮躁、只有基础扎实了,后续的学习才会更轻松、更快速、更高效。大数据学习资料分享群119599574 不管你是小白还是大牛,小编我都挺欢迎,今天的源码已经上传到群文件,不定期分享干货,包括我自己整理的一份最新的适合2018年学习的大数据开发和零基础入门教程,欢迎初学和进阶中的小伙伴。

原文地址:https://www.cnblogs.com/guilina/p/9467287.html

时间: 2024-10-11 17:52:09

大数据Hadoop核心知识入门学习注意事项的相关文章

Hadoop新手学习指导之hadoop核心知识学习

上篇(Hadoop新手学习指导之入门需知)我们介绍了新手学习hadoop的入门注意事项.这篇来谈谈hadoop核心知识学习. hadoop核心知识学习: hadoop分为hadoop1.X和hadoop2.X,并且还有hadoop生态系统.这里只能慢慢介绍了.一口也吃不成胖子. 那么下面我们以hadoop2.x为例进行详细介绍: Hadoop的核心是mapreduce和hdfs. Mapreduce:mapreduce是很多人都需要迈过去的槛,它比较难以理解,我们有时候即使写出了mapreduc

成都大数据Hadoop与Spark技术培训班

成都大数据Hadoop与Spark技术培训班 中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开发设计人员的工作水平,旨在培养专业的大数据Hadoop与Spark技术架构专家,更好地服务于各个行业的大数据项目开发和落地实施. 2015年近期公开课安排:(全国巡回开班) 08月21日——08月23日大连 09月23日——09月25日北京 10月16日——10月18日成都 11月27日——11月2

大数据竞赛平台——Kaggle 入门

大数据竞赛平台--Kaggle 入门篇 这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本文分为两部分介绍Kaggle,第一部分简单介绍Kaggle,第二部分将展示解决一个竞赛项目的全过程.如有错误,请指正! 1.Kaggle简介 Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle.com/ 企业或者研究者可以将数据.问题描述.期望的指标发布到Kaggle上

王家林的云计算分布式大数据Hadoop企业级开发动手实践

一:课程简介: Hadoop是云计算分布式大数据的事实标准软件框架,Hadoop中的架构实现是整个云计算产业技术的基础,作为与Google三大核心技术DFS.MapReduce.BigTable相对的HDFS.MapReduce.和HBase也是整个Hadoop生态系统的核心的技术,本课程致力于帮您掌握这三大技术的同时掌握云计算的数据仓库挖掘技术Hive,助您在云计算技术时代自由翱翔. 二:课程特色 1,      深入浅出中动手实作: 2,      掌握Hadoop三大核心:HDFS.Map

大数据Hadoop最佳实践(V3)

一:课程简介: Hadoop是当下云计算大数据的王者. Hadoop不仅是一个大数据的计算框架,同时也是大数据的存储平台. 使用Hadoop,用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择 使用Hadoop可以主要完成: 1,构建离线处理平台,完成海量离线数据的存储分析,相对于传统的关系型数据

大数据新手的0基础学习路线,从菜鸟到高手的成长之路

大数据作为一个新兴的热门行业,吸引了很多人,但是对于大数据新手来说,按照什么路线去学习,才能够学习好大数据,实现从大数据菜鸟到高手的转变.这是很多想要学习大数据的朋友们想要了解的. 今天我们就来和大家分享下大数据新手从0开始学习大数据,实现菜鸟到高手的转变的学习路线.希望能够帮助想要学习大数据的朋友. 如果你想要学好大数据最好加入一个好的学习环境,可以来这个Q群529867072 这样大家学习的话就比较方便,还能够共同交流和分享资料 以下是大数据新手学习路线的正文: Linux:因为大数据相关软

王家林的云计算分布式大数据Hadoop征服之旅:HDFS&MapReduce&HBase&Hive&集群管理

一:课程简介: 作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生,使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效,的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择. 本课程会助你深入浅出的掌握Hadoop开发(包括HDFS.MapReduce.HBase.Hive等),并且在此基础上掌握Hadoop集群的配置.维

spring核心知识(学习心得)

直接进入主题,主要分为两大部分:框架学习心得和spring框架的核心知识. 学习心得 1.学习框架的时候,一定要弄清楚的几个问题: a. 这是一个什么框架 轻量级还是重量级, 侵入式还是非侵入式,是解决单个问题还是整体的解决方案. b. 框架的设计理念是什么(为了解决什么问题而出现) c. 框架的优缺点 d. 框架的架构是怎样的 e. 框架的核心是什么 f. 框架能实现哪些功能 在学习一个框架的时候如果都不知道它能够提供哪些功能,就更加不用谈功能实现和充分利用框架了 2. 在学习多个框架以后,如

14周事情总结-机器人-大数据hadoop

14周随着考试的进行,其他该准备的事情也在并行的处理着,考试内容这里不赘述了 首先说下,关于机器人大赛的事情,受益颇多,机器人的制作需要机械和电控两方面 昨天参与舵机的测试,遇到的问题:舵机不动 排查顺序:1.程序(不过程序比较简单)不是这上面的问题 2.检查电路问题(电路设计,线比较脆弱,焊接的也不是很好,最主要不知道板子的完整性) 3.加了块电源可以动舵机了,但之后实验出现莫名的问题 4.最终解决办法:改变线,将舵机的线又连接杜邦线(12) -------------------------