hadoop生态圈点滴

HDFS:分布式文件系统

MapReduce:分布式计算框架

Sqoop:数据库ETL工具

Flume:日志收集工具

Mahout:数据挖掘库

Hive:数据仓库

Pig:数据流处理

HBase:实时分布式数据库

Zookeeper:分布式协作服务

时间: 2024-11-06 07:51:38

hadoop生态圈点滴的相关文章

一张图片看懂hadoop生态圈

好多朋友觉得,通过扁平的文章了解hadoop生态圈不是很直观. 所以我抽时间,把hadoop生态圈中的各部分通过架构图的形式,直观的整理了出来, 方便对hadoop不了解的朋友更直观的了解hadoop. 大家可以在 云盘下载原文件(内附思维导图)  http://pan.baidu.com/s/1skN5bw5 博主福利 给大家推荐一套hadoop视频课程 [百度hadoop核心架构师,首次内部分享的企业级项目视频,价值3980元] 免费赠送100份,先到先得.联系老师微信ganshiyu102

Hadoop生态圈以及各组成部分的简介

1.Hadoop是什么? 适合大数据的分布式存储与计算平台 HDFS: Hadoop Distributed File System分布式文件系统 MapReduce:并行计算框架 2.Hadoop生态圈 ①HBase Google Bigtable的开源实现 列式数据库 可集群化 可以使用shell.web.api等多种方式访问 适合高读写(insert)的场景 HQL查询语言 NoSQL的典型代表产品 ②Hive 数据仓库工具.可以把Hadoop下的原始结构化数据变成Hive中的表 支持一种

基于Hadoop生态圈的数据仓库实践 —— 概述(二)

二.在Hadoop上实现数据仓库 (大部分翻译自<Big Data Warehousing>) 数据仓库技术出现很长时间了,现在为什么要从传统数据库工具转为使用Hadoop呢?答案就是最引人关注的流行词汇 -- 大数据.对许多组织来说,传统关系数据库已经不能够经济地处理他们所面临的数据量.而Hadoop生态圈就是为了能够廉价处理大量数据的目的应运而生的.下面看看大数据是怎么定义的. 1. 大数据的定义 虽然数据仓库技术自诞生之日起的二十多年里一直被用来处理大数据,但"大数据"

大数据hadoop生态圈

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具.锅碗瓢盆,各有各的用处,互相之间又有重合.你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮.但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择. 大数据,首先你要能存的下大数据. 传统的文件系统是单机的,不能横跨不同的机器.HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据

Apache Hadoop 和Hadoop生态圈

Apache Hadoop 和Hadoop生态圈 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数

基于Hadoop生态圈的数据仓库实践 —— ETL

使用Hive转换.装载数据 1. Hive简介 (1)Hive是什么         Hive是一个数据仓库软件,使用SQL读.写.管理分布式存储上的大数据集.它建立在Hadoop之上,具有以下功能和特点: 通过SQL方便地访问数据,适合执行ETL.报表.数据分析等数据仓库任务. 提供一种机制,给各种各样的数据格式加上结构. 直接访问HDFS的文件,或者访问如HBase的其它数据存储. 可以通过MapReduce.Spark或Tez等多种计算框架执行查询.         Hive提供标准的SQ

Hadoop生态圈介绍及入门(转)

本帖最后由 howtodown 于 2015-4-2 23:15 编辑 问题导读 1.Hadoop生态圈介绍了哪些组件,分别都是什么? 2.大数据与Hadoop是什么关系? 本章主要内容: 理解大数据的挑战 了解Hadoop生态圈 了解Hadoop发行版 使用基于Hadoop的企业级应用 你可能听别人说过,我们生活在“大数据”的环境中.技术驱动着当今世界的发展,计算能力飞速增长,电子设备越来越普遍,因特网越来越容易接入,与此同时,比以往任何时候都多的数据正在被传输和收集. 企业正在以惊人的速度产

Hadoop生态圈介绍

[问]hadoop在生产环境下综合考虑的的数据块副本数多少 [答]默认3个,一般也是用3个副本的比较多,如果有特殊需求的话,可以根据自己需求添加副本数. 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. 具有可靠.高效.可伸缩的特点. Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈.在未来一段

Hadoop生态圈

Hadoop生态圈 摘要:一:基本构成:HDFS(Hadoop分布式文件系统):Mapreduce(分布式计算框架):HBASE(分布式列存数据库): Zookeeper(分布式协作服务):HIVE(数据仓库):Pig(ad-hoc脚本)等. 二:详细了解一下其特性: Hadoop是一个由Apache基金会所开发的分布式系统 原文地址:https://www.cnblogs.com/c491108/p/11565248.html