Hadoop产生原因

对于Hadoop产生的原因,我们从以下三个方面谈起:

  • 传统大规模系统的问题

(1)传统大规模计算

1.传统计算受到处理器限制:相对较小的数据量有很多复杂的处理。

2.早期的方案:更大的计算机,更快的处理器,更多的内存,但即使这样也不能满足

(2)分布式系统

  1.更好的方案:使用更多的机器来处理单个作业

  2.分布式系统遇到的问题:编程的复杂性(用来管理和处理数据的程序很复杂);有限的带宽

3.数据瓶颈:传统系统中,数据存储在中央存储;数据在运行时拷贝到处理器;适合限量的数据

然而,现代系统有很多数据,我们需要寻求新的方法来处理这些数据:Hadoop就应运而生,引入了一个彻底的新方法就是分布式计算,当数据存储时分布数据,而且在数据所在的位置运行计算。

  • Hadoop自身优势

 (1)  Hadoop的源起:

1.思想起源:Google

2.Hadoop之父:Doug Cutting

3.Lucene->Nutch->Hadoop

4.实现云计算的事实标准开源软件

5.包含数十个具有强大生命力的子项目

6.已经能在上万节点上运行,处理数据量和排序时间不断打破世界纪录

 (2)  Hadoop核心设计

  1.当数据加载的时候分片成块

2.Map任务通常作用于单个块

3.Master程序管理任务

 (3)  Hadoop核心概念

1.应用通过高级语言代码来写

2.节点之间尽可能少的通信

3.数据提前分布式存储

4.把计算放到数据所在节点运行

5.数据通过多副本存储来提供可靠性和高可用性

6.Hadoop是可扩展并且容错的

三.Hadoop适用背景

 (1)大数据的处理模式:

 主要的处理模式可以分为流处理(stream processing)和批处理(batch processing):批处理是先存储后处理(store-process);流处理则是直接处理(straight-through process)

(2)你可以用Hadoop做什么?

  

 (3)数据从哪里来?

 1.科学

医疗影像,传感器数据,基因测序,天气数据,卫星

2.工业

金融,制药,制造业,保险,网游,能源,零售数据

  3.资产

销售数据,客户行为,产品数据库,账户数据等

4.系统数据

日志文件,健康和状态,活动信息流,网络消息,web分析,入侵检测和垃圾邮件过滤

 (4)常见的Hadoop分析类型

ETL;文本挖掘;索引构建;图创建和分析;模式识别;协同过滤;  预测模型;情感分析;风险评估

(5)使用Hadoop分析的好处

实现以前不可能或不现实的分析;更低的成本;更少的时间;更多的灵活性;近线性的扩展性

以上就是根据自己的学习以及实际经验给大家分享的Hadoop产生的原因,对于更多想要学习和了解大数据的同学来说,这是一个很好的开端;平常大家可以多关注一些大数据的资讯,多看一些大数据相关的书籍,我平常喜欢关注如大数据cn这些微信公众号,里面对于大数据的资讯介绍还是不错的,大家也可以看看。总之,希望我们每一个人都踏踏实实从基础做起,不断巩固提高,一定会取得进步的。

时间: 2024-10-16 14:53:39

Hadoop产生原因的相关文章

Hadoop之初体验

首先是来说一下这两天来自己的个人感受吧.我争取在第一段将情怀给逼逼完,大家可以无视这一段~~~真心是不容易,第一个感觉就是,乱.为啥呢?先说说我使用Hadoop的原因吧.选了云计算这门课,打算到时候深入研究大数据,也就要好好学咯.第一个学生研究课题是Hadoop环境搭建,据说是从选软件(也就是第一个:CentOs操作系统,第二个:jdk和第三个:Hadoop版本)到配置好环境并且能够测试通所有的东西,一共是花了五天时间(包括制作讲课ppt),前前后后查资料到入坑到看英文的调错也是重装虚拟机四五次

【Hadoop学习之八】MapReduce开发

环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 伪分布式:HDFS和YARN 伪分布式搭建,事先启动HDFS和YARN 第一步:开发WordCount示例 package test.mr; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache

Apache Spark源码走读之6 -- 存储子系统分析

欢迎转载,转载请注明出处,徽沪一郎. 楔子 Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析Spark中存储子系统的构成,并以数据写入和数据读取为例,讲述清楚存储子系统中各部件的交互关系. 存储子系统概览 上图是Spark存储子系统中几个主要模块的关系示意图,现简要说明如下 CacheManager  RDD在进行计算的时候,通过CacheManager来获取数据,并通过CacheManager来存储计算结果 BlockManager

JAVA程序员为何都在转大数据呢?原来如此

首先JAVA的精密,强大,拥有其它语言不可替代的性能和可维护性,早已经是成为最受欢迎的编程语言之一,很多人想进入IT行业,首选的第一门语言就是JAVA.但是,在未来10年肯定是大数据的天下,人工智能的爆发,将会有大量企业会进入大数据领域,而从JAVA程序员转JAVA大数据就会有天然的优势,因为目前大数据的架构基本都是用JAVA语言完成,未来10年,JAVA大数据的需求量会越来越大. 现在学习JAVA的小伙伴,如果想以后不被淘汰,将来势必会进军大数据行列,根据目前的行业动态,JAVA程序员由于发展

别让自己“墙”了自己(转自耗子叔)

原帖地址: https://coolshell.cn/articles/20276.html 这一两周与几个朋友聊天,有年轻的90后,也有大叔级的70后,这些人在我看来都是很有能力的人,但是一些喜好过于强烈,让我不经意地回顾了我工作20年来身边的人,有发展得好的,也有发展的不好的,有些人是很可惜的,因为限制他们的不是其它人,也不是环境,而是自己,所以,很想写下这篇文章.(注:这篇文章可能会是一篇说教的文章,所以,可能会让你看着犯困,所以,我会尽量地短一些,而且尽可能多讲故事,少道理,这里的故事,

Hadoop运行wordcount时报classnotfound错误的一个原因

我们在按照网上铺天盖地的教程开始运行wordcount时,有时会得到一个报错.如下所示 /usr/local/hadoop-1.2.1/bin# ./hadoop jar /home/ftp/temp/wordcount.jar WordCount /home/input /home/output Exception in thread "main" java.lang.ClassNotFoundException: WordCount at java.net.URLClassLoad

【hadoop】 running beyond virtual memory错误原因及解决办法

问题描述: 在hadoop中运行应用,出现了running beyond virtual memory错误.提示如下: Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual

hadoop无法启动常见原因

1.Could not chdir to home directory /home/USER: Permission denied 启动datanode时会报这个错误,尝试利用ssh登录datanode,发现需要密码.解决办法: 利用root权限修改/etc/sysconfig/selinux,将SELINUX修改为permissive. 如果不想重启机器来使配置起作用,可以利用root权限直接执行 setenforce permissive 待续……   hadoop无法启动常见原因

[hadoop] map函数中使用FileSystem对象出现java.lang.NullPointerException的原因及解决办法

问题描述: 在hadoop中处理多个文件,其中每个文件一个map. 我使用的方法为生成一个文件,文件中包含所有要压缩的文件在HDFS上的完整路径.每个map 任务获得一个路径名作为输入. 在eclipse中调试时,map中处理hdfs上的文件用到的FileSystem对象为整个class中的静态成员变量,在eclipse中运行没有错误,打包成jar提交到集群运行,就会在map函数中 FileStatus fileStatus = tmpfs.getFileStatus(inputdir); 这一