Hadoop 基本概念

1. Combiner

combiner is between map and reduce, similar to reducer, combine some data before reducer.

http://hadooptutorial.wikispaces.com/Custom+combiner

http://wiki.apache.org/hadoop/HadoopMapReduce

http://blog.optimal.io/3-differences-between-a-mapreduce-combiner-and-reducer/

2. Partitioner

partitioner is between map and reduce, further partition data that has the same key

http://hadooptutorial.wikispaces.com/Custom+partitioner

3. sort and group

http://stackoverflow.com/questions/16184745/what-is-difference-between-sort-comparator-and-group-comparator-in-hadoop

SortComparator decides how map output keys are sorted while GroupComparator decides which map output keys within the Reducer go to the same reduce method call.

4. whole picture

http://stackoverflow.com/questions/18395998/hadoop-map-reduce-secondary-sorting

时间： 2024-11-08 19:33:06

Hadoop 基本概念的相关文章

hadoop分布式存储（1）-hadoop基础概念（毕业设计）

hadoop是一种用于海量数据存储.管理.分析的分布式系统.需要hadoop需要储备一定的基础知识:1.掌握一定的linux操作命令 2.会java编程.因此hadoop必须安装在有jdk的linux环境中. linux环境可以用以下方式获取:1.安装linux操作系统 2.安装linux虚拟机 3.在阿里云.UniteStack上租一个云主机,创建linux环境,然后用putty去链接. linux下jdk的安装:百度即可. 与hadoop相关联的一些基础知识: Google大数据技术:

hadoop基础概念之Hadoop核心组件

认知和学习Hadoop,我们必须得了解Hadoop的构成,我根据自己的经验通过Hadoop构件.大数据处理流程,Hadoop核心三个方面进行一下介绍: Hadoop组件由图我们可以看到Hadoop组件由底层的Hadoop核心构件以及上层的Hadoop生态系统共同集成,而上层的生态系统都是基于下层的存储和计算来完成的. 首先我们来了解一下核心构件:Mapreduce和HDFS.核心组件的产生都是基于Google的思想来的,Google的GFS带来了我们现在所认识的HDFS,Mapreduce带来

hadoop 各种概念整理

Hadoop Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS. HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序.HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据. Hadoop的框架最核心的设计

Hadoop基本概念

Hadoop是一个是个海量数据的分布式存储和计算平台对于数据,我们大致可以将其分为三类: 结构化数据(对于结构化数据的处理可以通过RDBMS处理,通过将搜索码创建为索引页可以实现很快的查询速度) 半结构化数据(一般可以使用类型XML进行标记处理) 非结构化数据其实,非结构化数据会占据相当大的比重,非机构化数据的存储和计算也变得比较困难. Hadoop的灵感来自于Google的两篇论文,包括MapReduce,我们可以将Hadoop理解为是MapReduce的开源实现,Hadoop是由java

Hadoop 新生报道（三） hadoop基础概念

一.NameNode,SeconderyNamenode,DataNode NameNode,DataNode,SeconderyNamenode都是进程,运行在节点上. 1.NameNode:hadoop的主节点, 保存HDFS的元数据信息 1.fsimage - 它是在NameNode启动时对整个文件系统的快照 2.edit logs - 它是在NameNode启动后,对文件系统的改动序列 2.SeconderyNamenode: 职责是合并NameNode的edit logs到fsima

Hadoop的概念、版本、发展史

Hadoop是什么? Hadoop: 适合大数据的分布式存储和计算平台 Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台.实现在大量计算机组成的集群中对海量数据进行分布式计算.适合大数据的分布式存储和计算平台. Hadoop1.x中包括两个核心组件:MapReduce和Hadoop Distributed File System(HDFS) 其中HDFS负责将海量数据进行分布式存储,而MapReduce负责提供对数据的计算结果的汇总

Hadoop——HDFS概念

序言 hdfs文件系统主要设计为了存储大文件的文件系统:如果有个TB级别的文件,我们该怎么存储呢?分布式文件系统未出现的时候,一个文件只能存储在个服务器上,可想而知,单个服务器根本就存储不了这么大的文件:退而求其次,就算一个服务器可以存储这么大的文件,你如果想打开这个文件,效率会高吗? hdfs的出现就是为了解决上面的问题. hdfs为了满足大文件的存储和可读性,对数据进行切成多个小块进行存储,同时为了保证数据的可靠性,又对每个小块数据做复制,然后分别存储到多个节点中. 资料原文地址:http

Hadoop入门（一）概念

一.hadoop的概念 (1)什么是大数据大数据是不能用传统的计算技术处理的大型数据集的集合.它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域. (2)hadoop的定义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算. 二.单机安装(Ubuntu14版) 1.安装配置jdk A.在线安装: B.离线安装 1)下载jdk-7

Hadoop产生原因

对于Hadoop产生的原因,我们从以下三个方面谈起: 传统大规模系统的问题 (1)传统大规模计算 1.传统计算受到处理器限制:相对较小的数据量:有很多复杂的处理. 2.早期的方案:更大的计算机,更快的处理器,更多的内存,但即使这样也不能满足 (2)分布式系统 1.更好的方案:使用更多的机器来处理单个作业 2.分布式系统遇到的问题:编程的复杂性(用来管理和处理数据的程序很复杂):有限的带宽 3.数据瓶颈:传统系统中,数据存储在中央存储:数据在运行时拷贝到处理器:适合限量的数据然而,现代系