大数据之三:几个名词

Hadoop=HDFS+Hive+Pig+...

HDFS: 存储系统
MapReduce:计算系统
Hive:提供给SQL开发人员(通过HiveQL)的MapReduce,基于Hadoop的数据仓库框架
Pig:基于Hadoop的语言开发的
HBase:NoSQL数据库
Flume:一个收集处理Hadoop数据的框架
Oozie:一个让用户以多种语言(如MapReduce,Pig和Hive)定义一系列作业的工作流处理系统
Ambari:一个基于web的部署/管理/监控Hadoop集群的工具集
Avro:允许编码Hadoop文件的schema的一种数据序列化系统
Mahout:一个数据挖掘库,它包含了最流行的一些数据挖据算法,并且以MapReduce模型来实现他们
Sqoop:一个从非Hadoop数据存储(如关系数据库和数据仓库)进来的移动数据到Hadoop中的连接工具
HCatalog:一个中心化的元数据管理以及Apache Hadoop共享服务,它允许在Hadoop集群中的所有数据的统一视图,并允许不同的工具,包括Pig和Hive,处理任何数据元素,而无需知道身体在集群中的数据存储。

BigTop:为了创造一个更正式的程序或框架Hadoop的子项目及相关组件的目标提高Hadoop的平台,作为一个整体的包装和互操作性测试。

Apache  Storm:一个分布式实时计算系统,Storm是一个任务并行连续计算引擎。 Storm本身并不典型在Hadoop集群上运行,它使用Apache ZooKeeper的和自己的主/从工作进程,协调拓扑,主机和工作者状态,保证信息的语义。无论如何, Storm必定还是可以从HDFS文件消费或者从文件写入到HDFS。

Apache Spark:一种快速,通用引擎用于大规模数据处理,Spark是一个数据并行通用批量处理引擎。工作流中在一个类似的和怀旧风格的MapReduce中定义,但是,比传统Hadoop
MapReduce的更能干。Apache Spark有其流API项目,该项目通过短间隔批次允许连续处理。Apache
Spark本身并不需要Hadoop操作。但是,它的数据并行模式,需要稳定的数据优化使用共享文件系统。该稳定源的范围可以从S3,NFS或更典型
地,HDFS。执行Spark应用程序并不需要Hadoop
YARN。Spark有自己独立的主/服务器进程。然而,这是共同的运行使用YARN容器Spark的应用程序。此外,Spark还可以在Mesos集群
上运行。

时间: 2024-10-20 07:01:26

大数据之三:几个名词的相关文章

蔡先生论道大数据之三 , 国内互联网公司的大数据应用

上章,我简单描述了国外IT巨头在大数据方面的应用和战略,本章我们来看一下国内互联网公司如何理解大数据的. 随着互联网各类网络应用的不断深入,中国的大数据技术与应用的快速发展已成为不容忽视的事实.目前国内各IT企业,特别是大型互联网企业,都开始对大数据的存储.处理和应用进行战略布局. 国内BAT公司:) 百度 百度作为中国最大的搜索引擎,在中国和中文互联网领域各项排行中不是最大就是最多.2012年,百度日均抓取约10亿网页,处理超过100PB(1PB=1024TB)的数据.过去10年,百度网页搜索

【开源夏令营优秀开题报告】专题之三-云与大数据合集

CSDN开源夏令活动已经正式进入第一实习阶段,我们遴选出部分优秀提案开题报告进行展示.本文是云计算与大数据类开题报告展示. 编者按:CSDN开源夏令活动,已经正式进入第一实习阶段,我们遴选出了部分提案的优秀开题报告进行展示.优秀开题报告作者将得到CSDN高校俱乐部发出的"2014开源夏令营荣誉证书"及纪念品一份. 提案1:数据可视化实践 提案简介:基于百度数据可视化组件(ECharts.ZRender)做数据可视化相关专题应用:内容主题不限,但建议贴近民生大众,如"环境&qu

大数据系列之三:大数据体系架构的重要里程碑

欧凯惯例:引子 世界上唯一不变的就是变化,大数据的架构也不例外. 这次变化的推动者,多是一些大的商业公司! 首发地址 --- Teradata 美国天睿 Teradata这家公司其实挺陌生的,但这并不能让我们忽视其在大数据方面做出的贡献.简单一句描述这家公司的贡献就是: 2008年之前,这家公司以关系型为基础,硬刚大数据,之后意识到数据实在太大大复杂了,终究实现了对非关系型数据的支持. 具体它拿关系型作为对大数据的解决方案硬刚到什么程度呢?拿一个数据说来说明白了,直到2017年,它可以基于其关系

大数据日知录:架构与算法

大数据丛书 大数据日知录:架构与算法(大数据领域专家力作,专注大数据架构和算法,全面梳理大数据相关技术) 张俊林 著   ISBN 978-7-121-24153-6 2014年9月出版 定价:69.00元 404页 16开 编辑推荐 这是一本心血之作,历时3年,质量上乘. 从架构与算法的角度,比较全面地分门别类梳理了大数据相关技术. 本书内容紧跟技术前沿,讲解深入浅出,适合大数据领域所有技术人员. 书中还列有作者优选的高质量文献,能为读者节省选择的时间,绝对值得一读. 内容提要 大数据是当前最

读<<大数据时代>>的一些感想

第一次听说<<大数据时代>>这本书,是在网上看到的央视搞的一个2013中国好书评选活动推荐的25本"中国好书"的榜单中看到的.然后迅速上豆瓣上查看了一下对该书的评价,一看非常高,再加上央视的推荐是从2013在中国出版的40册图书中选出25本,可以说是精华了.果断定了一本,花了三天时间读完了.   大数据这个名词或者说概念从被提出开始,经过短短几年的发展,已经传的沸沸扬扬了,经常见诸媒体上.好像哪家媒体的科技板块每天不弄一些这样的新闻条,它就显得不够档次一样.这是

大数据和「数据挖掘」是何关系?---来自知乎

知乎用户,互联网 244 人赞同 在我读数据挖掘方向研究生的时候:如果要描述数据量非常大,我们用Massive Data(海量数据)如果要描述数据非常多样,我们用Heterogeneous Data(异构数据)如果要描述数据既多样,又量大,我们用Massive Heterogeneous Data(海量异构数据)--如果要申请基金忽悠一笔钱,我们用Big Data(大数据) 编辑于 2014-02-2817 条评论感谢 收藏没有帮助举报作者保留权利 刘知远,NLPer 4 人赞同 我觉得 大数据

试读《大数据日知录:架构与算法》有感

其实"大数据"这个词在我的脑海中还没有一个比较确切的定义,几年前我接触了一个名词"海量数据",它主要是指在数据库中如何处理优化查询海量数据的SQL,或者使用NoSQL(Not only SQL)进行处理,进而进行数据分析.数据挖掘等,从大量无规律的数据中提取出有价值的信息,总之海量数据是与数据库紧密关联的.而这两年兴起了"大数据"浪潮,我认为"海量数据"强调的是数据量的大小,而大数据则不仅仅是数据量的大小,还指每条数据本身的大

跟风舞烟学大数据可视化-Echarts从入门到上手实战

跟风舞烟学大数据可视化-Echarts从入门到上手实战 课程观看地址:http://www.xuetuwuyou.com/course/180 课程出自学途无忧网:http://www.xuetuwuyou.com 课程讲师:风舞烟 课时数:三个模块,共70课时   一.课程特色: 1.最全的Echarts课程讲解     70学时课时量,360度全方位,无死角的课程设计,让你通透Echarts可视化技术 2.最适合小白学员学习的课程,没有之一     只要你了解一点基本的Html,CSS,Ja

大数据工程师的必备技能

一.数据可视化 R不仅是编程语言,同时也R具有强大的统计计算功能和便捷的数据可视化系统.在此,推荐大家看一本书,这本书叫做<R数据可视化手册>.<R数据可视化手册>重点讲解R的绘图系统,指导读者通过绘图系统实现数据可视化.书中提供了快速绘制高质量图形的150多种技巧,每个技巧用来解决一个特定的绘图需求. Python 出现了很多新的Python数据可视化库,弥补了一些这方面的差距.matplotlib 已经成为事实上的数据可视化方面最主要的库,此外还有很多其他库,例如vispy,b