Hadoop 是什么？

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上，形成分布式系统；MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下并发并行应用程序。所以用户可以利用集群的Hadoop轻松地组织计算机资源，从而搭建自己的分布式计算平台，并且可以充分利用集群的计算和存储能力，完成海量数据的处理。

　　Hadoop是一个开源框架，可编写和运行分布式应用处理大规模数据。分布式计算是一个宽泛并且不断变化的领域。

　　Hadoop的优势在于：

1) 方便：Hadoop运行在由一般商用机器构成的大型集群上，或者云计算服务上，比如EC2。

2) 健壮：Hadoop致力于在一般商用硬件上运行，其架构假设硬件会频繁失效，Hadoop可以从容地处理大多数此类故障。

3) 可扩展：Hadoop通过增加集群节点，可以线性地扩展以处理更大的数据集。

4) 简单：Hadoop允许用户快速编写高效的并行代码。

Hadoop框架的核心是HDFS和MapReduce。其中 HDFS 是分布式文件系统，MapReduce 是分布式数据处理模型和执行环境。掌握了这两部分，也就掌握了Hadoop最核心的东西，

Hadoop是Doug Cutting基于Google公司的GFS和MapReduce思想不断完善的项目 —— Nutch中脱胎而出的，目前已经归于Apache。

时间： 2024-10-11 16:59:21

Hadoop 是什么？的相关文章

Hadoop：Windows 7 32 Bit 编译与运行

所需工具 1.Windows 7 32 Bit OS(你懂的) 2.Apache Hadoop 2.2.0-bin(hadoop-2.2.0.tar.gz) 3.Apache Hadoop 2.2.0-src(hadoop-2.2.0-src.tar.gz) 3.JDK 1.7 4.Maven 3.2.1(apache-maven-3.2.1-bin.zip) 5.Protocol Buffers 2.5.0 6.Unix command-line tool Cygwin(Setup-x86.e

编译hadoop 的native library

os:centos 6.7 x64 要解决的问题: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 解决的必要性 hadoop的cache和短路读(Short-Circuit Local Reads)都需要native library的支持解决步骤编译方法是 http://had

Hadoop Hive基础sql语法

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言查询,汇总,分析数据.而mapreduce开发人员可以把己写的mapper 和reducer 作为插件来支持

Hadoop快速入门

传说中的Hadoop,我终于来对着你唱"征服"了,好可爱的小象,!J 总的来说,hadoop的思路比较简单(map-reduce),就是将任务分开进行,最后汇总.但这个思路实现起来,比较复杂,但相对于几年前Intel等硬件公司提出的网格运算等方式,显得更加开放. 你难任你难,哥就是头铁! Tip:实践应用是核心,本文概念为主,有些部分可能会有些晦涩,直接跳过就好(不是特别重要). 本文代码实践在:https://github.com/wanliwang/cayman/tree/mast

Hadoop学习—浅谈hadoop

大数据这个词越来越热,本人一直想学习一下,正巧最近有时间了解一下.先从hadoop入手,在此记录学习中的点滴. 什么是hadoop? What Is Apache Hadoop? The Apache? Hadoop? project develops open-source software for reliable, scalable, distributed computing 作者:Doug Cutting 受Google三篇论文的启发(GFS.MapReduce.BigTable) 解

测试搭建成功的单机hadoop环境

1.关闭防火墙service iptables stop,(已经这是开机关闭的忽略) 2.进入hadoop目录,修改hadoop配置文件(4个) core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost.localdomain:8020</value> </property> <property

单机伪分布式Hadoop环境搭建

1.安装和配置JDK 具体操作见笔记 http://www.cnblogs.com/DreamDriver/p/6597178.html 2.创建Hadoop用户为Hadoop创建一个专门的用户,可以在系统安装的时候就创建,也可以在系统安装好之后用如下命令创建: # groupadd hadoop-user # useradd -g hadoop-user hadoop # passwd hadoop 3.下载安装Hadoop 4.配置SSH (1)生成密钥对时,执行如下命名 # ssh-ke

Hadoop学习笔记(3) Hadoop文件系统二

1 查询文件系统 (1) 文件元数据:FileStatus,该类封装了文件系统中文件和目录的元数据,包括文件长度.块大小.备份.修改时间.所有者以及版权信息.FileSystem的getFileStatus()方法用于获取文件或目录的FileStatus对象. 例:展示文件状态信息 public class ShowFileStatusTest{ private MiniDFSCluster cluster; private FileSystem fs; @Before public void

基于OGG的Oracle与Hadoop集群准实时同步介绍

Oracle里存储的结构化数据导出到Hadoop体系做离线计算是一种常见数据处置手段.近期有场景需要做Oracle到Hadoop体系的实时导入,这里以此案例做以介绍.Oracle作为商业化的数据库解决方案,自发性的获取数据库事务日志等比较困难,故选择官方提供的同步工具OGG(Oracle GoldenGate)来解决. 安装与基本配置环境说明软件配置角色数据存储服务及版本 OGG版本 IP 源服务器 OracleRelease11.2.0.1 Oracle GoldenGate 11.2

数据采集之Web端上传文件到Hadoop HDFS

前言最近在公司接到一个任务,是关于数据采集方面的. 需求主要有3个: 通过web端上传文件到HDFS; 通过日志采集的方式导入到HDFS; 将数据库DB的表数据导入到HDFS. 正好最近都有在这方面做知识储备.正所谓养兵千日,用兵一时啊.学习到的东西只有应用到真实的环境中才有意义不是么. 环境这里只做模拟环境,而不是真实的线上环境,所以也很简单,如果要使用的话还需要优化优化. OS Debian 8.7 Hadoop 2.6.5 SpringBoot 1.5.1.RELEASE 说明一下,这

猜你喜欢

Activiti Linux部署流程图出现乱码

前段时间使用Activiti在本机以及window环境下测试发现流程图正常显示,在linux下汉字变成了小方块. 经网上查找资料: 发现自己的京东云未安装中文字体,由于本人系统activiti配置文件 ...

C++ String 增删查改

#include <iostream> using namespace std; #include <assert.h> class String { public: Str ...

Linux下Memcached安装过程

1.获取memcached包 wget http://www.memcached.org/files/memcached-1.4.33.tar.gz 链接地址可到memcached.org查看 2.解 ...

SAX解析XML文件

SAX是Simple API for XML的缩写,它并不是由W3C官方所提出的标准.SAX是一种轻量型的方法,不像DOM解析时,把XML文档全部载入内存中,在PC上操作,Dom还有优势,但在手机中 ...

SharePoint 2013 安装.NET Framework 3.5 报错

环境描述操作系统:Windows Server 2012 R2 Datacenter版本安装报错中途接手安装SharePoint Server 2013 with sp1,配置向导报错如下: A ...

codevs 1073 家族并查集

没什么可以说的,并查集裸题,标签难度和实际不成正比啊,存个板子: 1 #include<stdio.h> 2 #include<string.h> 3 #define maxn ...

转载：Win32 CEvent事件

CEvent类的一个对象,表示一个"事件(一个允许一个事件发生时线程通知另一个线程的同步对象)". 在一个线程需要了解何时执行任务时,事件是十分有用的.例如,拷贝数据到数据文档时, ...

Python 文件常见操作

[python] view plain copy print? # -*-coding:utf8 -*- ''''' Python常见文件操作示例 os.path 模块中的路径名访问函数分隔 bas ...

Uva 11346 Probability 积分

化成反比函数求积分 G - Probability Time Limit: 1 sec Memory Limit: 16MB Consider rectangular coordinate syste ...

Spring基于事件驱动模型的订阅发布模式代码实例详解

代码下载地址:http://www.zuidaima.com/share/1791499571923968.htm 原文:Spring基于事件驱动模型的订阅发布模式代码实例详解事件驱动模型简介事件 ...

字符串全排列

输入“abc" 输出:abc acb bac bca cab cba package offer; public class zifuchuan { static void swap(cha ...

Dynamic CRM 2013学习笔记（三十四）自定义审批流5 - 自动邮件通知

审批过程中,经常要求自动发邮件:审批中要通知下一个审批人进行审批:审批完通知申请人已审批完:被拒绝后,要通知已批准的人和申请人.下面详细介绍如何实现一个自动发邮件的插件: 1. 根据审批状态来确定 ...

使用Windows 7 USB/DVD Download Tool制作WIN7系统安装盘

微软发布的Windows 7 USB/DVD Download Tool用于建立WIN7 ISO镜像文件的U盘或DVD光盘副本.要建立一个可引导的U盘或DVD光盘,下载WIN ISO文件后运行Wind ...

eclipse安装后的基础配置

1.安装jre Window > Preferences > Java > Installed JRES,点击add,选择Standard VM 2.检查是否开启自动编译 Gener ...

Linux手动添加用户、相关文件说明

手动添加用户顺序更改/etc/passwd 更改/etc/group 更改/etc/shadow并添加密码新建家目录并修改权限和属性装修家目录/etc/skel/.bash* 也可以再改下组的 ...

《CODE》读后笔记——第21~25章

21.总线连接总线是提供给计算机中每块电路板的数字信号的集合,这些信号可以分为4类:地址信号,数据输入信号,数据输出信号,控制信号.另外,总线给计算机中的各个电路板提供电源. S-100总线:早期流 ...

Android-------手机屏幕适配，文件适配

public class Main { //定义文件本地存储路径,可按照需求更改 private final static String rootPath = &quo ...

android插件开发-就是你了！启动吧！插件的activity（一）

通过之前的例子,我们学习了如何寻找hook点,并且做一些非常无聊的事情.比如是的粘贴板放一句无聊的句子,或者让系统在启动一个activity时打印一句话.这些看似无聊的事情其实都是为了本节做铺垫. 这 ...

Boost::thread库的使用（转）

原文转自 http://blog.csdn.net/lee353086/article/details/4673790 本文主要由线程启动.Interruption机制.线程同步.等待线程退出.Thr ...

手写CrashHandler实现UncaughtExceptionHandler拦截android异常

手写CrashHandler实现UncaughtExceptionHandler拦截android异常作者:码字员小D 有点复杂,虽然知道原理,但是并不好从哪开始写了...... 首先这是个需要在整 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.