Hadoop ->> Hadoop是什么?

Hadoop是什么?

1)Hadoop是一个分布式计算平台,程序员可以在不需要知道底层结构的情况下实现集群并行运算;

2)Hadoop不只是一个软件或者系统,它代表的是一个生态圈,一个做大数据分析计算的生态圈。

3)Hadoop核心是HDFS和MapReduce。HDFS(Hadoop Distributed File System)是一个以流为读取写入形式的分布式文件系统,特点是高容错(数据多副本存储)、高效(多节点并行处理)、高拓展(节点自由拓展)、低成本(HDFS是用Java写的,不存在平台不兼容也不会对机器存在特殊的要求)。MapReduce是一个编程/算法模型写入。

4)命名节点(Name node)只有一个,它就是控制器/调度器(Controller)。它只存储元数据,不存储业务数据。它负责告诉客户端要去哪里拿数据和把数据写入到哪三台数据节点上。它负责把HDFS命名空间的信息写入到叫FsImage文件里面,EditLog记录日志,这两个文件都在命名节点的机器上。为了解决单点失败问题,需要有另外的技术实现副本复制。其他的就是数据节点(Data node),用于存储数据的副本。68MB一个块这样存储。用心跳线(heartbeat)来报告给命名节点自己的健康情况。

时间: 2024-07-28 15:54:29

Hadoop ->> Hadoop是什么?的相关文章

[hadoop]hadoop权威指南例第二版3-1、3-2

hadoop版本1.2.1 jdk1.7.0 例3-1.通过URLStreamHandler实例以标准输出方式显示Hadoop文件系统的文件 hadoop fs -mkdir input 在本地创建两个文件file1,file2,file1的内容为hello world,file2内容为hello Hadoop,然后上传到input,具体方法如Hadoop集群(第6期)_WordCount运行详解中 2.1.准备工作可以看到. 完整代码如下: 1 import org.apache.hadoop

Hadoop - Hadoop伪分布式搭建

进行Hadoop伪分布式搭建时,需要有一定的Linux命令基础, 因为Hadoop是搭建在Linux环境上的开源框架, Hadoop的框架最核心的设计就是:HDFS和MapReduce. 本文也主要讲述HDFS和MapReduce环境的搭建. 搭建环境: 虚拟机: VMware10 操作系统:CentOS-6.5 JDK版本:jdk-8u171-linux-x64 Hadoop版本:hadoop-2.7.3 使用工具:Xshell 6,Xftp 6,Notepad++ 虚拟机ip地址:192.1

[Hadoop] - Hadoop Mapreduce Error: GC overhead limit exceeded

在运行mapreduce的时候,出现Error: GC overhead limit exceeded,查看log日志,发现异常信息为 2015-12-11 11:48:44,716 FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: GC overhead limit exceeded at java.io.DataInputStream.readU

[Hadoop] Hadoop学习笔记之Hadoop基础

1 Hadoop是什么? Google公司发表了两篇论文:一篇论文是“The Google File System”,介绍如何实现分布式地存储海量数据:另一篇论文是“Mapreduce:Simplified Data Processing on Large Clusters”,介绍如何对分布式大规模数据进行处理.Doug Cutting在这两篇论文的启发下,基于OSS(Open Source software)的思想实现了这两篇论文中的原理,从而Hadoop诞生了. Hadoop是一种开源的适合

[Hadoop] Hadoop学习历程 [持续更新中…]

1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成,而这就是Hadoop FS Shell.它主要是用于对Hadoop平台进行文件系统的管理. 有关HDFS的介绍博客请移步:Hadoop学习笔记之Hadoop基础. 有关Hadoop FS Shell的学习文档:Hadoop FS Shell学习文档. 2. Hadoop Streaming 我们知

[Hadoop] - Hadoop 3.x版本新特性

仅做记录--->官方说明:http://hadoop.apache.org/docs/r3.0.0-alpha2/index.html =========================================== 1. JDK版本的最低依赖从1.7变成了1.8 2. HDFS支持Erasure Encoding 3. Timeline Server v2版本 4. hadoop-client这个依赖分为hadoop-client-api和hadoop-client-runtime两个依

EDW on Hadoop(Hadoop上的数据仓库)技术选型和实践思考

在这篇文章中, 将讨论EDW on Hadoop 有哪些备选方案, 以及我个人的倾向性, 最后是建构方法.  欢迎转载, 但必须注明原贴(刘忠武,  http://www.cnblogs.com/harrychinese/p/edw_on_hadoop.html). 数据仓库发展已经有二十多年了, 我们先看看数据仓库发展的趋势: 在数据规模小的时候, 采用单节点RDBMS作为存储和执行引擎, 比如Oracle/PostgreSQL/MySQL都行; 当数据规模大了后, 或者时间窗口很紧时, 多采

[hadoop]Hadoop源码分析-Context

学编程第一个肯定是hello world,Hadoop也不例外,它的hello world就是Wordcount,单词统计例子 1 package org.apache.hadoop.examples; 2 3 import java.io.IOException; 4 import java.util.StringTokenizer; 5 6 import org.apache.hadoop.conf.Configuration; 7 import org.apache.hadoop.fs.P

java.io.FileNotFoundException: /home/hadoop/hadoop/dfs/namenode/current/VERSION (Permission denied)

今天布置hadoop集群,尝试单独将secondarynamenode分属到一台独立的虚拟机上, 当格式化后,start-dfs.sh.namenode没启动.查看日志.报错例如以下 查看权限才发现,/current/VERSION是隶属root的.须要更改用户. 之后.再start-dfs.sh,依旧提示no [master](网上有人说是hosts下的hostname的问题,可是我核对多次,没有问题), 可是namenode进程确实起开了. 版权声明:本文博客原创文章,博客,未经同意,不得转