大数据Hadoop需要了解哪些内容?

一、Hadoop环境搭建

1. Hadoop生态环境介绍

2. Hadoop云计算中的位置和关系

3. 国内外Hadoop应用案例介绍

4. Hadoop概念、版本、历史

5. Hadoop核心组成介绍及hdfs、mapreduce体系结构

6. Hadoop独立模式安装和测试

7. Hadoop的集群结构

8. Hadoop伪分布的详细安装步骤

9. 通过命令行和浏览器观察Hadoop

10. Hadoop启动脚本分析

11. Hadoop完全分布式环境搭建

12. Hadoop安全模式、回收站介绍

二、HDFS体系结构和Shell以及Java操作

1. HDFS底层工作原理

2. HDFSdatanode,namenode详解

3. 单点故障(SP0F)和高可用(HA)

4. 通过API访问HDFS

5. 常用压缩算法介绍和安装使用

6. Maven介绍和安装,eclipse中使用Maven,搭建Maven本地仓库

三、Mapreduce学习

1. Mapreduce四个阶段介绍

2. Job、Task介绍

3. 默认工作机制

4. 创建MR应用开发,获取年度的最高气温

5. 在Windows上运行MR作业

6. Mapper、Reducer

7. InputSplit和OutputSplit

8. Shuffle:Sort,Partitioner,Group,Combiner

9. 通过计数器调试程序

10. 在Windows安装Hadoop

11. 在eclipse安装Hadoop插件,访问Hadoop资源

12. 在eclipse中编写ant脚本

13. YARN调度框架事件分发机制

14. 远程调试资源管理器

15. Hadoop的底层google ProtoBuf的协议分析

16. Hadoop底层IPC原理和RPC

四、Hadoop高可用-HA

1. Hadoop2.x集群结构体系介绍

2. Hadoop2.x集群搭建

3. NameNode的高可用性(HA)

4. HDFS Federation

5. ResourceManager的高可用性(HA)

6. Hadoop集群常见问题和解决办法

原文地址:http://blog.51cto.com/13543192/2113063

时间: 2024-10-12 16:24:57

大数据Hadoop需要了解哪些内容?的相关文章

王家林的云计算分布式大数据Hadoop企业级开发动手实践

一:课程简介: Hadoop是云计算分布式大数据的事实标准软件框架,Hadoop中的架构实现是整个云计算产业技术的基础,作为与Google三大核心技术DFS.MapReduce.BigTable相对的HDFS.MapReduce.和HBase也是整个Hadoop生态系统的核心的技术,本课程致力于帮您掌握这三大技术的同时掌握云计算的数据仓库挖掘技术Hive,助您在云计算技术时代自由翱翔. 二:课程特色 1,      深入浅出中动手实作: 2,      掌握Hadoop三大核心:HDFS.Map

大数据Hadoop最佳实践(V3)

一:课程简介: Hadoop是当下云计算大数据的王者. Hadoop不仅是一个大数据的计算框架,同时也是大数据的存储平台. 使用Hadoop,用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择 使用Hadoop可以主要完成: 1,构建离线处理平台,完成海量离线数据的存储分析,相对于传统的关系型数据

王家林的云计算分布式大数据Hadoop征服之旅:HDFS&MapReduce&HBase&Hive&集群管理

一:课程简介: 作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生,使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效,的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择. 本课程会助你深入浅出的掌握Hadoop开发(包括HDFS.MapReduce.HBase.Hive等),并且在此基础上掌握Hadoop集群的配置.维

14周事情总结-机器人-大数据hadoop

14周随着考试的进行,其他该准备的事情也在并行的处理着,考试内容这里不赘述了 首先说下,关于机器人大赛的事情,受益颇多,机器人的制作需要机械和电控两方面 昨天参与舵机的测试,遇到的问题:舵机不动 排查顺序:1.程序(不过程序比较简单)不是这上面的问题 2.检查电路问题(电路设计,线比较脆弱,焊接的也不是很好,最主要不知道板子的完整性) 3.加了块电源可以动舵机了,但之后实验出现莫名的问题 4.最终解决办法:改变线,将舵机的线又连接杜邦线(12) -------------------------

成都大数据Hadoop与Spark技术培训班

成都大数据Hadoop与Spark技术培训班 中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开发设计人员的工作水平,旨在培养专业的大数据Hadoop与Spark技术架构专家,更好地服务于各个行业的大数据项目开发和落地实施. 2015年近期公开课安排:(全国巡回开班) 08月21日——08月23日大连 09月23日——09月25日北京 10月16日——10月18日成都 11月27日——11月2

搭建大数据hadoop完全分布式环境遇到的坑

搭建大数据hadoop完全分布式环境,遇到很多问题,这里记录一部分,以备以后查看. 1.在安装配置完hadoop以后,需要格式化namenode,输入指令:hadoop namenode -format,报错误信息:hadoop: command not found 本文网址:https://www.cnblogs.com/SH170706/p/10312667.html 2. 原文地址:https://www.cnblogs.com/SH170706/p/10312678.html

我搭建大数据Hadoop完全分布式环境遇到的坑---hadoop: command not found

搭建大数据hadoop环境,遇到很多问题,这里记录一部分,以备以后查看. [遇到问题].在安装配置完hadoop以后,需要格式化namenode,输入指令:hadoop namenode -format,报错误信息:hadoop: command not found 网上查阅资料,建议检查hadoop的环境变量是否配置,经检查,已经配置.建议到实际路径下执行此命令,切换到/opt/hadoop/bin这个目录下,仍然 报这个错误信息. 再查资料,看到别人设置主节点免密登陆到主节点.我已在这三台机

大数据hadoop生态圈

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具.锅碗瓢盆,各有各的用处,互相之间又有重合.你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮.但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择. 大数据,首先你要能存的下大数据. 传统的文件系统是单机的,不能横跨不同的机器.HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据

大数据——Hadoop集群坏境CentOS安装

前言 前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMware虚拟机.CentOS 6.8 64 bit 安装流程 因为我的笔记本是Window7操作系统,然后内存配置,只有8G,内存配置太低了,当然为了演示,我会将Hadoop集群中的主节点分配2GB内存,然后剩余的三个节点都是1GB配置. 所有的节点存储我都设置为50GB. 在安装操作系统之前,我们需要