好程序员大数据学习路线Hadoop学习干货分享

好程序员大数据学习路线Hadoop学习干货分享,Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。
Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。
包括这些模块:

  • Hadoop Common:支持其他Hadoop模块的常用工具。
  • Hadoop分布式文件系统(HDFS?):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
  • Hadoop YARN:作业调度和集群资源管理的框架。
  • Hadoop MapReduce:一种用于并行处理大型数据集的基于YARN的系统。

上述每个模块有自己独立的功能,而模块之间又有相互的关联。

广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈
可靠,可扩展的分布式计算的开源软件,由HDFS、MapReduce、YARN组成。

HDFS
Hadoop分布式文件系统,一般由一到两个Namenode进程和若干Datanode进程组成,在实现了HA机制的HDFS中,还有ZKFC进程(一般跟NameNode进程运行在同一台计算机上)和多个JN进程。

节点
运行Namenode或Datanode进程的机器称之为节点,对应的运行Namenode进程的机器称之为Namenode节点,运行Datanode进程的机器称之为Datanode节点,这里的机器可以是物理机也可以是虚拟机。

Mapreduce
分布式并行离线计算框架,是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架,Mapreduce核心功能是将用户编写的业务逻辑代码和MR自带默认组件整合成一个完整的分布式运算程序,并发的运行在一个hadoop集群上;与HDFS解决问题的原理类似,HDFS是将大的文件切分成若干小文件,然后将它们分别存储到集群中各个主机中。同样原理,mapreduce是将一个复杂的运算切分成若个子运算,然后将它们分别交给集群中各个主机,由各个主机并行运算。

名词解释

  • Job :用户的每一个计算请求称为一个作业。
  • Task:每一个作业,都需要拆分开了,交由多个主机来完成,拆分出来的执行单位就是任务。Task又分为如下三种类型的任务:
    • Map:负责map阶段的整个数据处理流程
    • Reduce:负责reduce阶段的整个数据处理流程
    • MRAppMaster:负责整个程序的过程调度及状态协调
      YARN
      Yet Another Resource Negotiator(好吧,另一种资源协调者),作业调度和集群资源管理的框架,由ResourceManager和NodeManager组成,ResourceManager有两个主要组件:Scheduler和ApplicationsManager。

Scheduler
调度程序负责根据熟悉的容量,队列等约束将资源分配给各种正在运行的应用程序。调度程序是纯调度程序,因为它不执行应用程序状态的监视或跟踪。此外,由于应用程序故障或硬件故障,它无法保证重启失败的任务。调度程序根据应用程序的资源需求执行其调度功能;?它是基于资源Container的抽象概念,它包含内存,cpu,磁盘,网络等元素。

ApplicationsManager
负责接受作业提交,协商第一个容器以执行特定于应用程序的ApplicationMaster,并提供在失败时重新启动ApplicationMaster容器的服务。每个应用程序ApplicationMaster负责从Scheduler协商适当的资源容器,跟踪其状态并监视进度。

Zookeeper
分布式应用程序的分布式协调服务,由多个QuorumPeerMain进程组成,本质上这些进程功能类似,但是在zookeeper运行过程中,会由其中的一个进程充当leader角色,剩余进程充当follower角色。

znode
zookeeper内部维护的处于内存中的树状数据结构中的一个组成部分,即树状数据结构中的节点,具有权限、类型、版本等相关元信息,和子节点、父节点、自身内容等其他相关信息。zookeeper负责监控节点的变化状态,包括节点的新增、删除、内容变更、子节点变更,但是zookeeper不负责某个节点发生变化之后的动作,变化之后zookeeper可以告知这个节点的Watcher,然后由这个watcher负责处理。

HA
所谓HA,即高可用(7*24小时不中断服务)(secondarynamenode只是保证了“可靠性”)实现高可用最关键的是消除单点故障,hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA。

  • HDFS的HA机制详解:通过双namenode消除单点故障,双namenode协调工作的要点:

    • 元数据管理方式需要改变
    • 需要一个状态管理功能模块

原文地址:https://blog.51cto.com/14479068/2432970

时间: 2024-11-05 10:42:13

好程序员大数据学习路线Hadoop学习干货分享的相关文章

好程序员大数据学习路线之hive存储格式

好程序员大数据学习路线之hive存储格式,hive的存储格式通常是三种:textfile . sequencefile . rcfile . orc .自定义 set hive.default.fileformat=TextFile; 默认存储格式为:textfile textFile:普通文本存储,不进行压缩.查询效率较低.1.sequencefile:hive提供的二进制序列文件存储,天生压缩.sequeceFile 和 rcfile都不允许使用load方式加载数据.需要使用insert 方

好程序员大数据学习路线分享hive的运行方式

好程序员大数据学习路线分享hive的运行方式,hive的属性设置: 1.在cli端设置 (只针对当前的session) 3.在java代码中设置 (当前连接) 2.在配置文件中设置 (所有session有效) 设置属性的优先级依次降低. cli端只能设置非hive启动需要的属性.(log属性,元数据连接属性) 查找所有属性: hive>set; 查看当前属性的值:通常是hadoop hive> set -v; 模糊查找属性: hive -S -e "set" | grep

好程序员大数据学习路线分享Scala系列之泛型

好程序员大数据学习路线分享Scala系列之泛型,带有一个或多个类型参数的类是泛型的. 泛型类的定义: //带有类型参数A的类定义class Stack[A] {private var elements: List[A] = Nil//泛型方法def push(x: A) { elements = x :: elements }def peek: A = elements.headdef pop(): A = {val currentTop = peekelements = elements.ta

好程序员大数据学习路线之hive表的查询

好程序员大数据学习路线之hive表的查询 1.join 查询 1.永远是小结果集驱动大结果集(小表驱动大表,小表放在左表). 2.尽量不要使用join,但是join是难以避免的. left join . left outer join . left semi join(左半开连接,只显示左表信息) hive在0.8版本以后开始支持left join left join 和 left outer join 效果差不多 hive的join中的on只能跟等值连接 "=",不能跟< &g

好程序员大数据学习路线hive内部函数

好程序员大数据学习路线hive内部函数,持续为大家更新了大数据学习路线,希望对正在学习大数据的小伙伴有所帮助.1.取随机数函数:rand()语法: rand(),rand(int seed) 返回值: double 说明: 返回一个0到1范围内的随机数.如果指定seed,则会得到一个稳定的随机数序列select rand();select rand(10);2.分割字符串函数:split(str,splitor) 语法: split(string str, string pat) 返回值: ar

好程序员大数据学习路线分享高阶函数

好程序员大数据学习路线分享高阶函数,我们通常将可以做为参数传递到方法中的表达式叫做函数 高阶函数包含:作为值的函数.匿名函数.闭包.柯里化等等. 定义函数时格式:val 变量名 =?(输入参数类型和个数)?=>?函数实现和返回值类型和个数 "="表示将函数赋给一个变量 "=>"左面表示输入参数名称.类型和个数,右边表示函数的实现和返回值类型和参数个数 作为值的函数 定义函数 scala> val func = (x:Int) => x * x

好程序员大数据学习路线分享MAPREDUCE

好程序员大数据学习路线分享MAPREDUCE,需求:统计大量的文本文件中的单词出现的次数 1)整个运算需要分阶段 阶段一:并行局部运算 阶段二 :汇总处理,不同的阶段需要开发不同的程序 2)阶段之间的调用 3)业务程序(task程序)如何并发到集群并启动程序 4)如何监控task程序的运行状态,如何处理异常 ::这些问题是开发分布式程序都会面临的问题,完全可以封装成框架::MR 的结构 一个完整的MapReduce运行时有三类实例进程: 1)MRAppMaster : 负责整个程序的过程调度和状

好程序员大数据学习路线分享Scala分支和循环

好程序员大数据学习路线分享Scala分支和循环3.3. 条件表达式表达式:一个具有执行结果的代码块.结果是具体的值或者() 表达式的思考方式:以表达式为中心的编程思想 1.表达式和语句的区别:表达式有返回值,语句被执行.表达式一般是一个语句块,执行后,返回一个值 2.不使用return语句,最后一个表达式即返回值 if/else表达式有值,这个值就是跟在if或者else之后的表达式的值 object ConditionDemo {def main(args: Array[String]){var

好程序员大数据学习路线分享Scala系列之集合操作函数

好程序员大数据学习路线继续为大家分享Scala系列之集合操作函数4.6 集合的重要函数4.6.1sum/max/min/count在序列中查找最大或最小值是一个极常见的需求,如下:val numbers = Seq(11, 2, 5, 1, 6, 3, 9) numbers.max //11 numbers.min //1 更高级的例子,其中包含一个书的序列case class Book(title: String, pages: Int) val books = Seq( Book("Futu