Cloudera Hadoop 5& Hadoop高阶管理及调优课程(CDH5,Hadoop2.0,HA,安全,管理,调优)

1.课程环境

本课程涉及的技术产品及相关版本:


技术


版本


Linux


CentOS 6.5


Java


1.7


Hadoop2.0


2.6.0


Hadoop1.0


1.2.1


Zookeeper


3.4.6


CDH Hadoop


5.3.0


Vmware


10


Hive


0.13.1


HBase


0.98.6


Impala


2.1.0


Oozie


4.0.0


Hue


3.7.0

2.内容简介

本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容:

1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和YARN的HA实现,

HDFS Federation实现等

2、搭建本地Yum部署CDH5的重要组件和优化配置

3、Impala、Oozie和Hue的部署、使用操作及调优

4、Hadoop安全认证及授权管理

5、Hadoop各组件性能调优

《Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)》http://www.ibeifeng .com/goods-435.html

《Hadoop大数据零基础高端实战培训系列配文本挖掘项目(挑战年薪50万)》http://www.ibeifeng .com/goods-428.html

《基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析》http://www.ibeifeng. com/goods-377.html

迪伦老师:某知名500强企业大数据平台架构师,大数据处理专家。长期从事于大数据基础架构建设、企业级数据仓库、大数据分析、挖掘等领域项目的开发及管理。

熟悉多种技术架构的综合运用,包括Hadoop、Greenplum、Oracle、Cognos、Datastage等。对于Hadoop生态系统,特别是Hive、HBase、Mahout等开源框架的业务

应用、   可靠性、基础架构和高级应用等方面有着丰富经验。

迪伦老师在北风网参与的其他课程链接:

单品课程:

《基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\MapReduce\数据挖掘\项目实战) 》 http://www.ibeifeng. com/goods-440.html

《深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)》 http://www.ibeifeng. com/goods-438.html

《MapReduce/Hbase进阶提升(原理剖析、实战演练)》 http://www.ibeifeng .com/goods-438.html

《Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)》http://www.ibeifeng. com/goods-435.html

《Hadoop大数据零基础高端实战培训系列配文本挖掘项目(挑战年薪50万)》http://www.ibeifeng. com/goods-428.html

《基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析》http://www.ibeifeng. com/goods-377.html

一、Hadoop2.0 动态增加节点

01.1 怎样添加节点

01.2 添加新的服务器节点

01.3 新节点操作系统配置

01.4 新节点Hadoop配置

01.5 调整新节点副本数

二、Hadoop2.0 动态删除节点

02.1 怎样删除节点

02.2 删除Hadoop2.0集群节点

02.3 测试监控删除节点后的集群

三、Hadoop2.0 HDFS HA部署

03.1 HDFS HA的实现方式

03.2 HDFS HA的实现步骤

03.3 HA集群环境配置

03.4 HA hdfs-site.xml参数配置

03.5 HA其他参数配置

03.6 JournalNode服务启动及初始化

03.7 HDFS HA服务启动及手工切换

03.8 基于ZK自动切换模式的实现

03.9 HDFS HA中ZooKeeper部署

03.10 配置HDFS HA自动切换模式

03.11 HDFS HA自动故障切换测试

四、Hadoop2.0 HDFS HA+Federation部署

04.1 HDFS Federation的实现方式及规划

04.2 HDFS Federation的配置步骤

04.3 配置HDFS Federation

04.4 HDFS Federation服务启动及测试

04.5 HDFS HA+Federation实现及配置步骤

04.6 HDFS HA+Federation的配置及服务启动

04.7 HDFS HA+Federation集群故障模拟测试

五、Hadoop升级

05.1 Hadoop内部升级的实现

05.2 Hadoop1.0升级到2.0步骤

05.3 HDFS升级配置操作

05.4 执行HDFS升级并测试验证

05.5 MapReduce升级

六、Hadoop2.0 YARN HA部署

06.1 YARN HA的实现

06.2 YARN HA的配置步骤及其相关参数

06.3 Hadoop2.0 YARN HA配置操作

06.4 YARN HA服务启动及测试

06.5 YARN HA测试及错误处理

06.6 解决YARN HA启动错误的问题

06.7 HDFS+YARN HA故障模拟测试

七、Hadoop安全管理深度剖析

07.1-Hadoop安全背景

07.2-Hadoop1.0安全问题及处理机制

07.3 Kerberos基本概念及授权认证过程

07.4 Kerberos在Hadoop中的应用

07.5 Hadoop1.0安全机制的具体实现

07.6 RPC安全之身份认证机制

07.7 RPC安全之服务访问控制机制

07.8 HDFS安全策略

07.9 Mapreduce安全策略

07.10 Hadoop上层服务的安全策略

07.11 Hadoop1.0安全机制的应用场景

07.12 Hadoop2.0安全认证机制的实现

07.13 Yarn中的各类令牌及其作用

07.14 Hadoop2.0授权机制的实现

八、搭建本地yum安装CDH5 Hadoop集群

08.1 为什么选择CDH

08.2 CDH的体系架构

08.3 CDH的集群规划

08.4 CDH操作系统配置步骤

08.5 CDH集群主机名及网络配置

08.6 操作系统yum源配置

08.7 CDH5的yum源配置

08.8 主机间信任关系的建立

08.9 NTP时间同步服务配置

08.10 JDK安装

08.11 安装和配置HDFS步骤

08.12 YUM安装HDFS

08.13 CDH集群环境变量配置

08.14 CDH5 HDFS核心配置

08.15 HDFS其他重要配置及服务启动

08.16 安装和配置YARN的步骤

08.17 YARN的安装

08.18 YARN的核心参数配置

08.19 MapReduce相关参数配置

08.20 服务启动及验证

08.21 CDH5集群测试

08.22 webHDFS的使用

九、基于Kerberos认证的Hadoop安全管理

09.1 Kerberos集群规划及配置步骤

09.2 Kerberos安装配置

09.3 Kerberos数据库创建及服务启动

09.4 Kerberos的使用及测试

09.5 Kerberos principal和keytab概念剖析

09.6 HDFS上配置Kerberos步骤

09.7 HDFS principal创建及生成keytab文件

09.8 HDFS keytab文件部署

09.9 HDFS安全参数配置

09.10 Namenode服务的安全启动

09.11 Datanode服务的安全启动

09.12 HDFS安全使用测试

09.13 YARN配置Kerberos步骤

09.14 YARN principal创建及keytab文件生成部署

09.15 YARN安全参数配置

09.16 YARN服务安全启动及测试

09.17 自动化集群管理

十、Zookeeper&HIVE&HBASE&LDAP实现Kerberos认证

10.01 Zookeeper配置Kerberos步骤

10.02 通过Yum安装Zookeeper

10.03 Zookeeper Server配置Kerberos

10.04 Zookeeper Client配置kerberos

10.05 HBase相关概念深度解析

10.06 HBase配置Kerberos步骤

10.07 通过Yum安装HBase 01

10.08 通过Yum安装HBase 02

10.09 为HBase配置Kerberos

10.10 HBase启动错误诊断及测试

10.11 CDH Hive架构及配置Kerberos认证步骤

10.12 安装HIVE组件及配置PostgreSQL

10.13 Hive的基础配置

10.14 为Hive配置Kerberos认证

10.15 Hive shell及Beeline安全访问测试

10.16 hive与hbase集成原理

10.17 hive-hbase集成安装配置

10.18 hive-hbase映射表创建

10.19 LDAP基本概念

10.20 LDAP模式设计

10.21 LDAP集成Kerberos配置步骤

10.22 LDAP安装和基础配置

10.23 LDAP集成Kerberos及数据库创建

10.24 导入系统用户到LDAP

10.25 OpenLDAP客户端配置和使用

十一、Impala大数据分析引擎

11.01 什么是Impala

11.02 Impala架构和进程

11.03 Impala安装配置步骤

11.04 Impala安装部署

11.05 Impala配置及服务启动

11.06 Impala配置Kerberos认证

11.07 Impala启停故障处理及测试

11.08 Impala的使用

11.09 Impala-shell基本功能的使用

11.10 Impala连接查询

11.11 Impala聚合及子查询

11.12 Impala分区表的使用

11.13 Impala的优化

11.14 Impala收集统计信息及生成查询计划

11.15 HDFS缓存池在Impala中的使用

十二、Oozie&Hue的使用及安全认证管理

12.01 什么是oozie

12.02 Oozie安装和配置步骤

12.03 Oozie安装和基本配置

12.04 Oozie安全配置及服务启动

12.05 Oozie启动问题处理

12.06 Oozie Mapreduce作业测试

12.07 Oozie常用命令及工作流程定义

12.08 Oozie MR&hive&sqoop动作节点配置

12.09 Oozie pig&ssh&java&sw&shell动作节点配置

12.10 Oozie Coordinator作业

12.11 Coordinator动作和应用定义

12.12 Oozie Bundle应用定义

12.13 什么是Hue

12.14 安装配置Hue-HDFS&YARN

12.15 Hue配置Hive、Kerberos、Imapala和Zookeeper等

12.16 Hue安装启动问题处理

12.17 Hue页面初始化及查询问题解决

12.18 Hue控制台的使用

十三、Hadoop2.0授权及资源调度管理

13.01 Hadoop授权管理基础知识

13.02 服务访问授权

13.03 服务级授权配置实例

13.04 队列访问控制列表

13.05 队列访问控制配置实例

13.06 公平调度器配置步骤

13.07 公平调度器配置实例

13.08公平调度器验证

13.09 容量调度器配置

13.10 容量调度器配置

13.11 容量调度配置测试验证

13.12 基于标签的调度器

十四、Hadoop压缩

14.01 hadoop压缩概念及支持的格式

14.02 hadoop常用几种压缩格式对比

14.03 压缩格式的选择

14.04 Snappy压缩配置

14.05 Snappy&Gzip压缩测试

14.06 Hadoop LZO压缩安装配置步骤

14.07 cdh5 lzo压缩安装

14.08 lzo安装问题处理

14.09 lzo压缩配置及测试

14.10 hive配置使用lzo压缩

14.11 Hive外部表使用lzo压缩文件

14.12 Hive使用lzo压缩实例

14.13 hbase压缩配置

14.14 hbase压缩测试

十五、Hadoop文件存储格式

15.01 大数据存储需求及方式

15.02 Hadoop常用文件格式

15.03 HDFS块内三种存储方式实例

15.04 RCFile的设计和实现

15.05 ORCFile文件结构

15.06 Hive文件存储格式的选择

15.07 Hive不同文件格式数据加载测试

15.08 多种文件格式查询存储效率测试

15.09 RCFile性能测试

十六、Hadoop调优

16.01 调优思路

16.02 应用程序优化

16.03 Linux系统优化

16.04 Hadoop实现机制调优

16.05 机架感知策略实现

16.06 Hadoop参数调优综述及NameNode调优

16.07 Datanode参数调优

16.08 集中化缓存管理

16.09 集中缓存架构和概念

16.10 缓存管理及缓存池命令

16.11 缓存操作实例

16.12 缓存参数配置

16.13 YARN调优概述

16.14 Slave和Container资源分配

16.15 配置资源分配和进程大小属性

16.16 YARN内存监控

16.17 Reducer调度调优

16.18 Mapreduce其他关键参数调优

目标一. 掌握Hadoop2.0动态增加和删除节点的维护操作

目标二. 掌握通过Hadoop2.0 HDFS&YARN HA+Federation技术来搭建高可用集群的技能

目标三. 掌握Hadoop2.0升级操作

目标四. 熟悉Hadoop安全管理的知识

目标五. 掌握通过搭建本地yum来部署CDH5 Hadoop集群,包括HBase、Hive、Impala、Oozie和Hue等

目标六. 掌握Impala、Oozie和Hue的安装、使用及优化等

目标七. 掌握基于Kerberos认证的Hadoop安全管理的技能

目标八. 掌握Hadoop安全授权管理的技能

目标九. 掌握Hadoop性能优化的技巧

<未完待续>

亮点一、Hadoop2.6.0、CDH5.3 等采用的均是目前为止最新的版本,技术的前沿性可以保证让您的技术在二到三年内不会落伍.

亮点二、理论与实战相结合,由浅入深。即照顾到基础学员,又照顾到有一定经验的学员。

亮点三、课程所有实例都有操作演示,手把手一步步带领学员从入门到精通.

一.课程针对人群

   本课程针对掌握一定的Hadoop基础知识的学员,想通过本项目的学习,深入掌握Hadoop高阶运维、管理和调优技巧的学员。

没有Hadoop基础的同学,可先学习如下课程:

《Hadoop大数据零基础高端培训课程》  http://www. ibeifeng. com/hadoop.html

二.我该怎么学,如何才能学好这门课程,给些建议

 2.1、时间上的安排建议

本课程共80讲,如果您时间上充分,建议以每天2-3讲的进度往前学习。

2.2、学习要求

如果您没有基础,建议还是中规中矩的按照课程进度一点一点仔细观看学习,并一定要把看完的视频中的代码自己手敲一遍,以加深理解和记忆

如果您有基础,可不必按步就搬进行,可以拿你感兴趣的部分去学习,但一定要注意实践,并学会举一反三

2.3、讲师建议

1.最好看完视频之后,抛开视频,独立自己去把上课中的示例写一遍,看自己是否理解,如果不正确,可以回过头看再看下视频,如果反复,达到真正理解和

熟练掌握 的目的。

2.对于课程实战部分,一定要自己亲自动手做一遍,不要满足听完就OK了

3. 建议一般听视频,一般拿个纸和笔,做一些记录和笔记,这是一种非常好的学习习惯。

4. 一定不要过于依赖视频,要学会看文档日志和使用百度,学会思考,学会举一反三

5. 最后祝您学有所成

课程是属于某个特定的专业技术,掌握该技术后,你可以从事以下职位的相关工作

1.Hadoop运维工程师

2.Hadoop大数据架构师

 

时间: 2024-10-08 21:55:37

Cloudera Hadoop 5& Hadoop高阶管理及调优课程(CDH5,Hadoop2.0,HA,安全,管理,调优)的相关文章

【转】Scala学习——高阶函数

原文链接 http://nerd-is.in/2013-09/scala-learning-higher-order-functions/ 原文发表于:http://nerd-is.in/2013-09/scala-learning-higher-order-functions/ 在函数式编程语言中,函数是“头等公民”,可以像任何其他数据类型一样被传递和操作. 因为Scala混合了面向对象和函数式的特性,所以对Scala来说,函数是“头等公民”. 作为值的函数 1 2 3 import scal

Hadoop 2.6.0 HA高可用集群配置详解

1 Hadoop HA架构详解 1.1 HDFS HA背景 HDFS集群中NameNode 存在单点故障(SPOF).对于只有一个NameNode的集群,如果NameNode机器出现意外情况,将导致整个集群无法使用,直到NameNode 重新启动. 影响HDFS集群不可用主要包括以下两种情况:一是NameNode机器宕机,将导致集群不可用,重启NameNode之后才可使用:二是计划内的NameNode节点软件或硬件升级,导致集群在短时间内不可用. 为了解决上述问题,Hadoop给出了HDFS的高

Centos6.5安装配置Cloudera Manager CDH5.6.0 Hadoop

环境规划操作系统版本:CentOS-6.5-x86_64-minimal.iso 192.168.253.241    master   虚拟机4G内存192.168.253.242    slave1    虚拟机2G内存192.168.253.243    slave2    虚拟机2G内存 一.环境初始化1.修改主机名(每台机器都执行) 192.168.253.241    master 192.168.253.242    slave1 192.168.253.243    slave2

好程序员大数据学习路线分享Hadoop阶段的高可用配置

大数据学习路线分享Hadoop阶段的高可用配置,什么是Hadoop的HA机制 Ha机制即Hadoop的高可用(7*24小时不中断服务) 正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制 hadoop-ha严格来说应该分成各个组件的HA机制--HDFS的HA.YARN的HA HDFS的HA机制详解HDFS 的HA主要是通过双namenode协调工作实现 双namenode协调工作的要点:A.元数据管理方式需要改变: 内存中各自保存一份元数据 Edits日志只能有一份,只有Act

Golang高阶:Golang1.5到Golang1.12包管理

Golang1.5到Golang1.12包管理 1. 前言 Golang 是一门到如今有十年的静态高级语言了,2009年的时候算是正式推出了,然后到最近的一两年,2017-2018年的时候,突然直线上升,爆火了,得益于容器化运维/直播/短视频/区块链... Golang 语法简单,简单即是复杂,软件构建的核心在于将复杂的东西简单化,处理好复杂度. 作为一个 gopher,我们要知道他的包管理,这样才能合理化代码结构,做好工程管理.(gopher:地鼠) 2. GOPATH/ Golang 1.5

HBase零基础高阶应用实战(CDH5、二级索引、实践、DBA)

HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”.就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力.HBase是Apache的Hadoop项目的子项目.HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式.

hadoop 之Hadoop生态系统

1.Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架.具有可靠.高效.可伸缩的特点. Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN. 下图为hadoop的生态系统: 2.HDFS(Hadoop分布式文件系统) 源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版. 是Hadoop体系中数据存储管理的基础.它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行.HDFS简化了文件的

菜鸟玩云计算之十八:Hadoop 2.5.0 HA 集群安装第1章

菜鸟玩云计算之十八:Hadoop 2.5.0 HA 集群安装第1章 cheungmine, 2014-10-25 0 引言 在生产环境上安装Hadoop高可用集群一直是一个须要极度耐心和体力的仔细工作. 虽然有非常多文档教会大家怎么一步一步去完毕这样的工作,可是百密也有一疏. 现成的工具不是没有,可是对于我这个喜欢了解细节的人来说,用别人的东西,写的好还能够,写的不好,出了问题,查找错误难之又难.手工安装Hadoop集群须要对Linux有一定的使用经验.对于全然没有接触Linux的人来说.肯定是

基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\Ma

Hadoop的前景 随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企 业急需引入hadoop技术人才.由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员. Hadoop入门薪资已经达到了8K以上,工作1年可达到1.2W以上,具有2-3年工作经验的hadoop人才年薪可以达到30万—50万. 一般需要大数据处理的公司基本上都是大公司,所以学