Hadoop 基本概念

1. Combiner

combiner is between map and reduce, similar to reducer, combine some data before reducer.

http://hadooptutorial.wikispaces.com/Custom+combiner

http://wiki.apache.org/hadoop/HadoopMapReduce

http://blog.optimal.io/3-differences-between-a-mapreduce-combiner-and-reducer/

2. Partitioner

partitioner is between map and reduce, further partition data that has the same key

http://hadooptutorial.wikispaces.com/Custom+partitioner

3. sort and group

http://stackoverflow.com/questions/16184745/what-is-difference-between-sort-comparator-and-group-comparator-in-hadoop

SortComparator decides how map output keys are sorted while GroupComparator decides which map output keys within the Reducer go to the same reduce method call.

4. whole picture

http://stackoverflow.com/questions/18395998/hadoop-map-reduce-secondary-sorting

时间: 2024-11-08 19:33:06

Hadoop 基本概念的相关文章

hadoop分布式存储(1)-hadoop基础概念(毕业设计)

hadoop是一种用于海量数据存储.管理.分析的分布式系统.需要hadoop需要储备一定的基础知识:1.掌握一定的linux操作命令 2.会java编程.因此hadoop必须安装在有jdk的linux环境中. linux环境可以用以下方式获取:1.安装linux操作系统  2.安装linux虚拟机  3.在阿里云.UniteStack上租一个云主机,创建linux环境,然后用putty去链接. linux下jdk的安装:百度即可. 与hadoop相关联的一些基础知识: Google大数据技术:

hadoop基础概念之Hadoop核心组件

认知和学习Hadoop,我们必须得了解Hadoop的构成,我根据自己的经验通过Hadoop构件.大数据处理流程,Hadoop核心三个方面进行一下介绍: Hadoop组件 由图我们可以看到Hadoop组件由底层的Hadoop核心构件以及上层的Hadoop生态系统共同集成,而上层的生态系统都是基于下层的存储和计算来完成的. 首先我们来了解一下核心构件:Mapreduce和HDFS.核心组件的产生都是基于Google的思想来的,Google的GFS带来了我们现在所认识的HDFS,Mapreduce带来

hadoop 各种概念整理

Hadoop Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS. HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序.HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据. Hadoop的框架最核心的设计

Hadoop基本概念

Hadoop是一个是个海量数据的分布式存储和计算平台 对于数据,我们大致可以将其分为三类: 结构化数据(对于结构化数据的处理可以通过RDBMS处理,通过将搜索码创建为索引页可以实现很快的查询速度) 半结构化数据(一般可以使用类型XML进行标记处理) 非结构化数据 其实,非结构化数据会占据相当大的比重,非机构化数据的存储和计算也变得比较困难. Hadoop的灵感来自于Google的两篇论文,包括MapReduce,我们可以将Hadoop理解为是MapReduce的开源实现,Hadoop是由java

Hadoop 新生报道(三) hadoop基础概念

一.NameNode,SeconderyNamenode,DataNode NameNode,DataNode,SeconderyNamenode都是进程,运行在节点上. 1.NameNode:hadoop的主节点, 保存HDFS的元数据信息 1.fsimage - 它是在NameNode启动时对整个文件系统的快照 2.edit logs - 它是在NameNode启动后,对文件系统的改动序列 2.SeconderyNamenode:  职责是合并NameNode的edit logs到fsima

Hadoop的概念、版本、发展史

Hadoop是什么? Hadoop: 适合大数据的分布式存储和计算平台 Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台.实现在大量计算机组成的集群中对海量数据进行分布式计算.适合大数据的分布式存储和计算平台. Hadoop1.x中包括两个核心组件:MapReduce和Hadoop Distributed File System(HDFS) 其中HDFS负责将海量数据进行分布式存储,而MapReduce负责提供对数据的计算结果的汇总

Hadoop——HDFS概念

序言 hdfs文件系统主要设计为了存储大文件的文件系统:如果有个TB级别的文件,我们该怎么存储呢?分布式文件系统未出现的时候,一个文件只能存储在个服务器上,可想而知,单个服务器根本就存储不了这么大的文件:退而求其次,就算一个服务器可以存储这么大的文件,你如果想打开这个文件,效率会高吗? hdfs的出现就是为了解决上面的问题. hdfs为了满足大文件的存储和可读性,对数据进行切成多个小块进行存储,同时为了保证数据的可靠性,又对每个小块数据做复制,然后分别存储到多个节点中. 资料 原文地址:http

Hadoop入门(一)概念

一.hadoop的概念 (1)什么是大数据 大数据是不能用传统的计算技术处理的大型数据集的集合.它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域. (2)hadoop的定义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算. 二.单机安装(Ubuntu14版) 1.安装配置jdk A.在线安装: B.离线安装 1)下载jdk-7

Hadoop产生原因

对于Hadoop产生的原因,我们从以下三个方面谈起: 传统大规模系统的问题 (1)传统大规模计算 1.传统计算受到处理器限制:相对较小的数据量:有很多复杂的处理. 2.早期的方案:更大的计算机,更快的处理器,更多的内存,但即使这样也不能满足 (2)分布式系统   1.更好的方案:使用更多的机器来处理单个作业   2.分布式系统遇到的问题:编程的复杂性(用来管理和处理数据的程序很复杂):有限的带宽 3.数据瓶颈:传统系统中,数据存储在中央存储:数据在运行时拷贝到处理器:适合限量的数据 然而,现代系