hadoop知识体系

目录结构知识点还是挺全的,可以按照点学习。

一、Hadoop入门,了解什么是Hadoop 二、分布式文件系统HDFS,是数据库管理员的基础课程

1、Hadoop产生背景

2、Hadoop在大数据、云计算中的位置和关系

3、国内外Hadoop应用案例介绍

4、国内Hadoop的就业情况分析及课程大纲介绍

5、分布式系统概述

6、Hadoop生态圈以及各组成部分的简介

7、Hadoop核心MapReduce例子说明


1、分布式文件系统HDFS简介

2、HDFS的系统组成介绍

3、HDFS的组成部分详解

4、副本存放策略及路由规则

5、NameNode Federation

6、命令行接口

7、Java接口

8、客户端与HDFS的数据流讲解

9、HDFS的可用性(HA)

三、初级MapReduce,成为Hadoop开发人员的基础课程 四、高级MapReduce,高级Hadoop开发人员的关键课程

1、如何理解map、reduce计算模型

2、剖析伪分布式下MapReduce作业的执行过程

3、Yarn模型

4、序列化

5、MapReduce的类型与格式

6、MapReduce开发环境搭建

7、MapReduce应用开发

8、更多示例讲解,熟悉MapReduce算法原理


1、使用压缩分隔减少输入规模

2、利用Combiner减少中间数据

3、编写Partitioner优化负载均衡

4、如何自定义排序规则

5、如何自定义分组规则

6、MapReduce优化

7、编程实战

五、Hadoop集群与管理,是数据库管理员的高级课程 六、ZooKeeper基础知识,构建分布式系统的基础框架

1、Hadoop集群的搭建

2、Hadoop集群的监控

3、Hadoop集群的管理

4、集群下运行MapReduce程序


1、ZooKeeper体现结构

2、ZooKeeper集群的安装

3、操作ZooKeeper

七、HBase基础知识,面向列的实时分布式数据库 八、HBase集群及其管理

1、HBase定义

2、HBase与RDBMS的对比

3、数据模型

4、系统架构

5、HBase上的MapReduce

6、表的设计


1、集群的搭建过程讲解

2、集群的监控

3、集群的管理

九、HBase客户端 十、Pig基础知识,进行Hadoop计算的另一种框架

1、HBase Shell以及演示

2、Java客户端以及代码演示


1、Pig概述

2、安装Pig

3、使用Pig完成手机流量统计业务

十一、Hive,使用SQL进行计算的Hadoop框架 十二、Sqoop,Hadoop与rdbms进行数据转换的框架

1、数据仓库基础知识

2、Hive定义

3、Hive体系结构简介

4、Hive集群

5、客户端简介

6、HiveQL定义

7、HiveQL与SQL的比较

8、数据类型

9、表与表分区概念

10、表的操作与CLI客户端演示

11、数据导入与CLI客户端演示

12、查询数据与CLI客户端演示

13、数据的连接与CLI客户端演示

14、用户自定义函数(UDF)的开发与演示


1、配置Sqoop

2、使用Sqoop把数据从MySQL导入到HDFS中

3、使用Sqoop把数据从HDFS导出到MySQL中

十三、Storm

1、Storm基础知识:包括Storm的基本概念和Storm应用
     场景,体系结构与基本原理,Storm和Hadoop的对比

2、Storm集群搭建:详细讲述Storm集群的安装和安装时
     常见问题

3、Storm组件介绍: spout、bolt、stream groupings等

4、Storm消息可靠性:消息失败的重发

5、Hadoop 2.0和Storm的整合:Storm on YARN

6、Storm编程实战

十四、论坛日志分析项目

该项目的数据来自于某网站论坛的日志,它是为本课程量身定做的,非常适合我们Hadoop课程学习。有的同学觉得应该介绍更多项目,其实做过几个项目后,就会发现项目的思路是相同的,只是业务不同而已。

大家写过这个项目后,就对Hadoop的各个框架在项目中是如何使用的,以及Hadoop与JavaEE结合有一个比较清晰的认识与了解。

时间: 2024-10-21 23:17:38

hadoop知识体系的相关文章

Hadoop知识体系完整笔记(未完)

数据流 MapReduce作业(job)是客户端执行的单位:它包括输入数据.MapReduce程序和配置信息.Hadoop把输入数据划分成等长的小数据发送到MapReduce,称之为输入分片.Hadoop为每个分片创建一个map任务,由它来运行用户自定义的map函数来分析每个分片中的记录. 这里分片的大小,如果分片太小,那么管理分片的总时间和map任务创建的总时间将决定作业的执行的总时间.对于大数据作业来说,一个理想的分片大小往往是一个HDFS块的大小,默认是64MB(可以通过配置文件指定) m

Hive(一):架构及知识体系

Hive是一个基于Hadoop的数据仓库,最初由Facebook提供,使用HQL作为查询接口.HDFS作为存储底层.mapReduce作为执行层,设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据,2008年facebook把Hive项目贡献给Apache.Hive提供了比较完整的SQL功能(本质是将SQL转换为MapReduce),自身最大的缺点就是执行速度慢.Hive有自身的元数据结构描述,可以使用MySql\ProstgreSql\oracle 等关系型数据库来进行存储

大型运维知识体系v2.0

转载请注明来自-运维社区https://www.unixhot.com/page/ops 运维知识体系-V2.0 By:2016年12月26日更新 运维架构层级/运维角度 内容描述/主要技术关键词 监控体系 安全体系 备份体系 自动化体系 云计算 客户端层 浏览器 Cookie.浏览器缓存协商(Last-Modified.Expires.Etag).组件分离.前端优化(提高浏览器并发数.避免静态资源Cookie上传).运维检测工具 舆论监控(第三方) 外部网络监控 APM 加速乐.牛盾.安全宝.

运维知识体系v0.5

http://www.90qj.com/?post=318http://ixdba.blog.51cto.com/2895551/1751377   运维知识体系v0.5-(运维社区-赵班长出品,欢迎转载!) 运维管理体系 测试和开发相关 运维架构层级 内容描述 监控体系 安全体系 备份体系 自动化体系 管理必知必会 ITSM ITIL IT Service CMM Six Sigma PMBok 涉及到运维参与 性能测试(TCPCopy) 单机监控(nmon) 环境规划(开发.测试.预生产.生

研究生期间知识体系规划 .

现在研二了,自然语言处理方向的.一直以来不清楚自己要进行怎样的知识体系,通过研一的学习和手头触及的一点事,慢慢理清了自己要进行的知识体系.这个知识体系有四个方面:专业基础方面,项目方面,论文方面,综合素质方面. 专业基础 专业基础第一点是java语言学习.传说中有些牛逼院校可能不是很注重编程语言学习,但结合我自身来看,好好学习一门语言很重要的.怎么进行java方面学习呢?第一个阶段,找一门java基础教程,认真走一遍.很多人到这以后就开始进行java某个应用方面进行发展了,学习框架.调用三方接口

yarn知识体系总结

2019/2/18 星期一 yarn知识体系总结 Yarn 产生的原因(1)MapreduceV1 中,jobtracker 存在瓶颈:集群上运行的所有mr 程序都有jobtracker 来调度SPOF 单点故障职责划分不清晰(2) 将jobtracker 的职责划分成两个部分:? 资源调度与管理:由统一的资源调度平台(集群)来实现(yarn)? 任务监控与管理:A.每一个application 运行时拥有一个自己的任务监控管理进程AppMasterB.AppMaster 的生命周期:appli

一文读懂分布式架构知识体系(内含超全核心知识大图)

作者 | 晓土  阿里巴巴高级工程师 姊妹篇阅读推荐:<云原生时代,分布式系统设计必备知识图谱(内含22个知识点)> 导读:本文力求从分布式基础理论.架构设计模式.工程应用.部署运维.业界方案这几大方面,介绍基于 MSA(微服务架构)的分布式知识体系大纲,从而对 SOA 到 MSA 进化有着立体的认识:从概念上和工具应用上更近一步了解微服务分布式的本质,身临其境的感受如何搭建全套微服务架构的过程. 关注“阿里巴巴云原生”公众号,回复“分布”,即可下载分布式系统及其知识体系清晰大图! 随着移动互

[转帖]一文读懂分布式架构知识体系(内含超全核心知识大图)

一文读懂分布式架构知识体系(内含超全核心知识大图) https://yq.aliyun.com/articles/721007?spm=a2c4e.11153959.0.0.2f464977X7lSdH 作者 | 晓土  阿里巴巴高级工程师 姊妹篇阅读推荐:<云原生时代,分布式系统设计必备知识图谱(内含22个知识点)> 导读:本文力求从分布式基础理论.架构设计模式.工程应用.部署运维.业界方案这几大方面,介绍基于 MSA(微服务架构)的分布式知识体系大纲,从而对 SOA 到 MSA 进化有着立

认知,构建个人的知识体系(上)

1.前言 本文将聊聊我对构建个人知识体系的一些想法,主要是为了提升自我认知.从个人经历开始,谈谈对知识的划分,也就是一个是什么,为什么的过程. 2.缘起 把时间回到一年前,那时候我工作快一年了,得益于前面的一些努力,工作比较顺利.特别是技术上,没有遇到太多过无法解决的问题.同时也开始迷茫,工作难道就是这个轻松的样子?三五年之后那不是很无趣,该怎么办? 想找到这个问题的答案,而最好的方式莫过于,亲自去了解那些三五年工作经验的人是怎么的样子. 因此从那时候起,关注了不少来公司面试的人的简历,也有过几