一、什么是Hadoop?

  Hadoop是Apache下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础结构。

  Hadoop包含HDFS,MapReduce,Pig,ZooKeeper等子项目的集合,用于分布式计算

二、为什么要用Hadoop?

  由于现在信息量速度增长快。信息里又积累着大量的数据,包括个人数据和工业数据。每年产生的数字信息将会有1/3的内容留在云平台中,或者由云平台处理。我们需要对这些数据进行分析和处理,获取更多有价值的信息。如何搞笑的存储和管理这些数据,如何分析这些数据,就可以选用Hadoop系统,处理大数据时,采用了分布式存储方式,提供了读写速度,扩大了存储容量。采用MapReduce来整合分布式文件系统上的数据,保证分析和处理数据的高效,而且Hadoop采用存储冗余数据的方式保证了数据的安全性。

三、HDFS

  HDFS有高容错特性,以及它基于Java语言开发,可部署在低廉的计算机集群中,而且不限某个操作系统,它基于Java语言开发。HDFS的数据管理能力,MapReduce处理任务的高效率。

四、Hadoop项目及结构

  核心内容是MapReduce和HDFS,但是Common,Avro,Chukwa,Hive,HBase等项目。

 
Pig Chukwa Hive HBase
MapReduce HDFS ZooKeeper
Core Avro

1、Core/Common:为Hadoop其他子项目提供支持的常用工具,主要包括FileSystem,RPC(Remote Procedure Call远程过程调用协议)和串行化库。

2、Avro:是用于数据序列化的系统。提供了丰富的数据结构类型,快速可压缩的二进制数据格式,可存储持久性数据的文件集。它依赖于模式Schema,Avro数据读和写是在模式下完成,这样可以减少写入数据的开销,提高序列化的速度

3、MapReduce:是一种编程模型,用于大规模数据集的并行运算。Map映射,Reduce归约。MapReduce执行时先指定一个Map映射函数,把输入键值对映射成一个新的键值对。经过一定的处理后交给Reduce,Reduce对相同Key下的所有Value进行处理后再输出键值对作为最终的结果。

核心是HDFS和MapReduce,Hadoop的体系结构主要通过HDFS来实现对分布式存储的底层支持,通过MapReduce来实现对分布式并行任务处理额的程序支持。

4、HBase是一个分布式数据库

5、Hive是建立在Hadoop上的数据仓库基础架构。

原文地址:https://www.cnblogs.com/drq1/p/8425811.html

时间: 2024-07-30 17:56:51

一、什么是Hadoop?的相关文章

Hadoop:Windows 7 32 Bit 编译与运行

所需工具 1.Windows 7 32 Bit OS(你懂的) 2.Apache Hadoop 2.2.0-bin(hadoop-2.2.0.tar.gz) 3.Apache Hadoop 2.2.0-src(hadoop-2.2.0-src.tar.gz) 3.JDK 1.7 4.Maven 3.2.1(apache-maven-3.2.1-bin.zip) 5.Protocol Buffers 2.5.0 6.Unix command-line tool Cygwin(Setup-x86.e

编译hadoop 的native library

os:centos 6.7 x64 要解决的问题:   WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 解决的必要性 hadoop的cache和短路读(Short-Circuit Local Reads)都需要native library的支持 解决步骤 编译方法是 http://had

Hadoop Hive基础sql语法

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言查询,汇总,分析数据.而mapreduce开发人员可以把己写的mapper 和reducer 作为插件来支持

Hadoop快速入门

传说中的Hadoop,我终于来对着你唱"征服"了,好可爱的小象,!J 总的来说,hadoop的思路比较简单(map-reduce),就是将任务分开进行,最后汇总.但这个思路实现起来,比较复杂,但相对于几年前Intel等硬件公司提出的网格运算等方式,显得更加开放. 你难任你难,哥就是头铁! Tip:实践应用是核心,本文概念为主,有些部分可能会有些晦涩,直接跳过就好(不是特别重要). 本文代码实践在:https://github.com/wanliwang/cayman/tree/mast

Hadoop学习—浅谈hadoop

大数据这个词越来越热,本人一直想学习一下,正巧最近有时间了解一下.先从hadoop入手,在此记录学习中的点滴. 什么是hadoop? What Is Apache Hadoop? The Apache? Hadoop? project develops open-source software for reliable, scalable, distributed computing 作者:Doug Cutting 受Google三篇论文的启发(GFS.MapReduce.BigTable) 解

测试搭建成功的单机hadoop环境

1.关闭防火墙service iptables stop,(已经这是开机关闭的忽略) 2.进入hadoop目录,修改hadoop配置文件(4个) core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost.localdomain:8020</value> </property> <property

单机伪分布式Hadoop环境搭建

1.安装和配置JDK 具体操作见笔记 http://www.cnblogs.com/DreamDriver/p/6597178.html 2.创建Hadoop用户 为Hadoop创建一个专门的用户,可以在系统安装的时候就创建,也可以在系统安装好之后用如下命令创建: # groupadd hadoop-user # useradd -g hadoop-user hadoop # passwd hadoop 3.下载安装Hadoop 4.配置SSH (1)生成密钥对时,执行如下命名 # ssh-ke

Hadoop学习笔记(3) Hadoop文件系统二

1 查询文件系统 (1) 文件元数据:FileStatus,该类封装了文件系统中文件和目录的元数据,包括文件长度.块大小.备份.修改时间.所有者以及版权信息.FileSystem的getFileStatus()方法用于获取文件或目录的FileStatus对象. 例:展示文件状态信息 public class ShowFileStatusTest{ private MiniDFSCluster cluster; private FileSystem fs; @Before public void

基于OGG的Oracle与Hadoop集群准实时同步介绍

Oracle里存储的结构化数据导出到Hadoop体系做离线计算是一种常见数据处置手段.近期有场景需要做Oracle到Hadoop体系的实时导入,这里以此案例做以介绍.Oracle作为商业化的数据库解决方案,自发性的获取数据库事务日志等比较困难,故选择官方提供的同步工具OGG(Oracle GoldenGate)来解决. 安装与基本配置 环境说明 软件配置 角色 数据存储服务及版本 OGG版本 IP 源服务器 OracleRelease11.2.0.1 Oracle GoldenGate 11.2

数据采集之Web端上传文件到Hadoop HDFS

前言 最近在公司接到一个任务,是关于数据采集方面的. 需求主要有3个: 通过web端上传文件到HDFS; 通过日志采集的方式导入到HDFS; 将数据库DB的表数据导入到HDFS. 正好最近都有在这方面做知识储备.正所谓养兵千日,用兵一时啊.学习到的东西只有应用到真实的环境中才有意义不是么. 环境 这里只做模拟环境,而不是真实的线上环境,所以也很简单,如果要使用的话还需要优化优化. OS Debian 8.7 Hadoop 2.6.5 SpringBoot 1.5.1.RELEASE 说明一下,这