Hadoop笔记系列 一

1.先说说什么是Hadoop?

  个人理解:一个分布式文件存储系统+一个分布式计算框架,在其上还有很多的开源项目来丰富他的功能,如Hbase,hive等等。官方:Hadoop是一个用Java编写的开源系统,可安排在大规模的计算平台上,从而提高计算效率。本质上它只是一个海量数据处理平台架构。

2.Hadoop与MapReduce,有什么关系?

  Hadoop生态圈的三个工具:第一,Hbase,最大化利用了内存。第二,HDFS,最大化利用了磁盘。第三,MapReduce,最大化利用了CPU。(Hbase,利用了Nosql数据库,Key-Value存储;HDFS,是hadoop distribute file system分布式文件系统;MapReduce,编程模型,主要用来做数据分析)

3.Hadoop是在怎么样的一个环境中应用而生的,它最终解决了什么问题?运用它之后,目前的发展方向是什么样的?

  信息时代数据的增长,比如每天在全球流通的Email。比如,某人在微博中发了不健康内容,我们想在第一时间找出来,需要在海量数据中做搜索。比如某大型公司的日志记录,我们需要离线处理海量数据,从中分析出用户的一些消费习惯。那么我们要存储,我们要运算并且分析,但是硬盘存储空间不够,网络带宽受限,硬件故障不稳定。但是,我们想以很少的代价完成这个tasks。于是产生了Hadoop。如google,会把淘汰的机器用于搭建一个Hadoop集群。运用这个技术之后,我们的海量技术得到了长期保存,得到了及时的处理很分析,集群会自动备份,省去了我们对硬件环境不稳定的担忧。目前,在国内阿里的这方面领先。

4.

时间: 2024-08-26 16:47:59

Hadoop笔记系列 一的相关文章

Hadoop学习笔记系列文章导游【持续更新中...】

一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急.但数据增长的速度往往比cpu和内存性能增长的速度还要快得多.要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容量的存储设备,价格往往也是天文数字.成本和IT能力成为了海量数据分析的主要瓶颈. Hadoop这个开源产品的出现,打破

Hadoop学习笔记系列文章导航

一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急.但数据增长的速度往往比cpu和内存性能增长的速度还要快得多.要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容量的存储设备,价格往往也是天文数字.成本和IT能力成为了海量数据分析的主要瓶颈. Hadoop这个开源产品的出现,打破

Irrlicht 3D Engine 笔记系列 之 自己定义Animator

作者: i_dovelemon 日期: 2014 / 12 / 17 来源: CSDN 主题: Custom Animator, Referenced count 引言 在昨天的文章<Irrlicht 3D Engine 笔记系列 之 教程4 - Movement>中,博主向大家保证会在今天向大家实际操作怎样扩展Irrlicht引擎的Animator特性.假设读者对Irrlicht的Animator的特性不是非常了解的话,请先了解下前面的那篇文章,本片文章是在上次文章的基础上进行的. Cust

C#刨根究底:《你必须知道的.NET》读书笔记系列

一.此书到底何方神圣? <你必须知道的.NET>来自于微软MVP-王涛(网名:AnyTao,博客园大牛之一,其博客地址为:http://anytao.cnblogs.com/)的最新技术心得和感悟,将技术问题以生动易懂的语言展开,层层深入,以例说理.全书主要,包括了.NET基础知识及其深度分析,以.NET Framework和CLR研究为核心展开.NET本质论述,涵盖了.NET基本知识几乎所有的重点内容.全书分为5个部分,第1部分讲述.NET与面向对象,从底层实现角度分析了.NET如何实现面向

MongoDB学习笔记系列

回到占占推荐博客索引 该来的总会来的,Ef,Redis,MVC甚至Sqlserver都有了自己的系列,MongoDB没有理由不去整理一下,这个系列都是平时在项目开发时总结出来的,希望可以为各位一些帮助和启发,文章中有对新技术的研究(Mongo驱动),对老技术的回顾(代码重构),还有对架构设计的阐述等(面向接口编程,对扩展开放,对修改关闭,所以出现了IMongoRepository接口). MongoDB学习笔记系列~目录 MongoDB学习笔记~环境搭建 (2015-03-30 10:34) M

vsphere学习笔记系列-cluster&amp;resources pool

cluster集群  要实现vmotion.DRS.HA等功能,EXSI主机必须是两台或以上的数量.那怎么判断vmotion等漂移功能在哪些主机执行的呢?这就引出了集群cluster的概念.所有基于vmotion的功能都是在集群内的EXSI主机实现的,VM只会在集群内做漂移. 所有EXSI主机加入集群后,CPU.内存等资源都会池化成集群的资源,由集群分配资源给VM.因此,我们可以看到在集群中,EXSI主机和VM是同等级别的排序,而不像在非集群环境中VM和EXSI是从属关系. 值得注意的是虽然由集

mongodb学习笔记系列一

一.简介和安装 ./bin/mongod --dbpath /path/to/database --logpath /path/to/log --fork --port 27017 mongodb非常的占磁盘空间, 刚启动后要占3-4G左右,--smallfiles 二.基本命令 1.登录mongodb client /use/local/mongo 2.查看当前数据库 show databases; show dbs; 两个可能 3.admin是和管理有关的库,local 是放schema有关

C++语言笔记系列之十二——C++的继承

C++的继承 1.继承方式 public(公有继承) 派生类中的成员可以访问基类的public成员和protected成员,但不能访问基类的private成员. 派生类的对象只能访问基类的public成员. protected(保护继承),private(私有继承) 派生类中的成员可以访问基类的public成员和protected成员,但不能访问基类的private成员. 派生类的对象不能访问基类的任何成员. 2.例子 example 1: #include <iostream.h> clas

ijkplayer阅读笔记系列&amp;lt;转&amp;gt;6945symae

ijkplayer阅读笔记系列<转>6945symae 哭歹ι删 铛吐麦 荸蹒糌枚 锣┄香 屁待蜱埚 这一百两银子从那小白脸兜里掏出来板上钉钉跟他没有屁的关系许清一旦不去倒马关 小舅子没有当上南朝第四位大将军他就一定不会战死沙场是我董卓失信在前亲兄弟明 徐渭熊挥挥手"去吧到了虎头城拧他个几百上千颗北莽脑袋下来!" 不下.该拿起的我不知如何拿起.这辈子都没能活明白到头来连剑也扔了竟然去找回 疸怅栅 是阎王爷让黑白无常来索命世上其实也就没有过不去的坎了." 禾