Hadoop简介:
Hadoop是Apache软件基金会旗下的一份开源的分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的(c c++ 都可以在Hadoop上开发),具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。Hadoop的核心是分布式文件系统HDFS(分布式文件存储)和 MapReduce(分布式文件处理)。Hadoop被公认为行业大数据的标本开源开发工具,在分布式环境下提供了海量数据的处理能力。几乎所有主流的厂商都围绕Hadoop提供的开发工具,开源软件,商业化工具和技术服务,如 雅虎,微软,淘宝,Facebook,百度等等... 都支持Hadoop。
Hadoop的特性:
Hadoop是一个能够多大量数据进行分布式处理的软件框架,并且是以一种可靠,高效,可伸缩的方式进行处理的,它具有以下几个方面的特性: 高可靠性,高效性,高可扩展性,高容错性,成本低(Hadoop不需要价格高得刀片服务器,普通的PC机就可以搭集群),运行在Linux平台上,支持多种编程语言。
Hadoop在企业中的应用架构:
企业把大量数据源抓过来进行分析,要进行三类分析:数据分析,数据实时查询,数据挖掘,
这也是企业中最典型的三种应用,在Hadoop底层 我们用HDFS分布式文件存储系统存储大量数据
我们要对这些数据进行离线分析(就是把数据那过来,进行批量处理),这就用到了MapReduce(分布式文件处理),除了MapReduce,我们还可以用到Hadoop的Hive(数据仓库)帮我们实现一些离线的数据分析,和Pig(一种编程语言,简化了Hadoop常见的工作任务)。分析完以后,我们要都数据进行实时查询,用Hbase(是一个分布式的,支持几十亿行数据存储,面向列的开源数据库,)。在企业中大体是这样应用的,当然还不止这些,
由于本人入园时间较短,也是第一次写随笔,写的不对的地方希望大家多多谅解,写的不对的地方请您指正。