张小龙谈“大数据五种开源处理技术”

概述

现在市场上有超过25万个开源技术出现了。如何选择?让我们一起看下5种激动人心的大数据技术

Storm Kafka是未来数据流处理的主要方式,它们已经在一些大公司中使用了,包括 Groupon,阿里巴巴和The
Weather Channel
等。

Storm,诞生于Twitter,是一个分布式实时计算系统。Storm
设计用于处理实时计算,Hadoop主要用于处理批处理运算

kafka是由LinkedIn研发的一款消息系统,作为一个数据处理的管道基础部分存在于系统中。当你一起使用它们,你就能实时地和线性递增的获取数据。

1、Storm\Kafka


使用Storm和Kafka,使得数据流处理线性的,确保每条消息获取都是实时的,可靠的。前后布置的Storm和Kafka能每秒流畅的处理10000条数据。像Storm和Kafka这样的数据流处理方案使得很多企业引起关注并想达到优秀的ETL(抽取转换装载)的数据集成方案。Storm 和
Kafka
也很擅长内存分析实时计算支持。企业使用批量处理的Hadoop方案无法也难对实现实时的业务需求。

在企业的大数据解决方案中实时数据流处理是必须的,因为它很优美的处理了“3v”–volume,velocity
和 variety
(容量,速率和多样性)。

Drill和Dremel
实现了快速低负载的大规模,即时查询数据搜索。它们提供了秒级搜索P级别数据的可能,来应对即席查询和预测,及提供强大的虚拟化支持

Drill和Dremel提供强大的业务处理能力,不仅仅只是为数据工程师提供。业务端的大家都将喜欢DrillDremel。Drill
是Google的Dremel的开源版本。Dremel是Google提供的支持大数据查询的技术。


Hadoop生态圈使得MapReduce作为一个很亲切有利的工具应用于广告分析。从SawzallPigHive,很多接口层应用的建立使得Hadoop更为友好,更接近业务,但是,像SQL体系,这些抽象层忽略一个重要的事实–MapReduce(或Hadoop)是为了系统化数据处理流程而存在的。

在堆对比的工作流基础的方法论中,很多业务驱动的BI和分析查询都是很基本的和临时交互的,低延时分析。一些数据科学家早已经推测Drill和Dremel将优于Hadoop。在Infochimps我们喜欢使用Elasticsearch全文索引引擎来实现数据库的数据搜索,但是真的在大数据处理中我们认为Drill将成为主流。

2、R

R是开源的强大的统计编程语言。自1997年以来,超过200万的统计分析师使用R。这是一门诞生自贝尔实验室的在统计计算领域的现代版的S语言并迅速地成为了新的标准的统计语言。R使得复杂的数据科学变得更廉价。R是SASSPASS的重要的领头者,并作为最优秀的统计师的重要工具。

因为它有一个非凡强大的社区在支持着,你可以找到所有的R的类库,创建虚拟的各类型的科学数据而不用新写代码。R之所以令人兴奋是因为维护他的人和新的每天的创造。R社区是大数据领域令人兴奋的地方之一。R在大数据领域是一个超棒的不会过时的技术。

在最近的几个月里,几千个新特性被日益公开的知识基础为主的分析类型的分析师们介绍.而且,R和Hadoop协同的很好,作为一个大数据的处理的部分已经被证明了。

3、Jualia

Julia
,是一个有趣的R的替代者,因为它不喜欢R的死慢死慢的解释器。Julia的社区虽然不怎么强大现在,但是如果你不是立即使用它的话,还是可以等等的。GremlinGiraph
帮助增强图形分析,并在图数据库像Neo4jInfiniteGraph中被使用,和与Hadoop协同工作的Giraph中被使用。

Golden
Orb
是另一个高层面的流处理的图基础的项目的例子。可以看看。图数据库是富有魅力的边缘化的数据库。它们和关系型数据库相比,有着很多有趣的不同点,这个是当你在开始的时候总是想用图理论而不是关系型理论。

另一个类似的图基础的理论是Google的Pregel,相比来说Gremlin和Giraph是其的开源替代。实际上,这些都是Google技术的山寨实现的例子。图在计算网络建模社会化网络方面发挥着重要作用,能够连接任意的数据。另外一个经常的应用是映射地理信息计算。从A到B的地点,计算最短的距离。

图在生物计算物理计算领域也有广泛的应用,例如,他们能绘制不寻常的分子结构。海量的图,图数据库和分析语言框架都是一种现实世界上实现大数据中的一部分。图基础的理论是一个杀手级的应用,为什么这么说?任何一个解决大型网络节点问题,都是通过节点和节点之间的路径来处理的。很多富有创造力的科学家和工程师们,都很明白的用正确的工具来解决对应的问题。

4、SAP hANA

SAP Hana 是一个全内存的分析平台,它包含了一个内存数据库和一些相关的工具软件用来创建分析流程和规范正确的格式来进行数据的输入输出。

Hana
假设其他的程序处理时候还不够快的解决遇到的问题,例如,金融建模决策支持网站个性化欺骗检测等等。Hana最大的缺点是”全内存“这意味着访问软状态的内存,这个是很明确的有点,但是这个也是相比磁盘存储来说很昂贵的部分。据组织者说,不用担心操作成本,Hana是快速的低延迟的大数据处理工具。

5、D3

D3是一个javascript面向文档的可视化的类库。它强大的创新性的让我们能直接看到信息和让我们进行正常的交互。它的作者是Michael

Bostock一个纽约时报的图形界面设计师。例如,你可以使用D3来从任意数量的数组中创建HTMl表格。你能使用任意的数据来创建交互进度条等。使用D3,程序员能之间创建界面,组织所有的各种类型的数据。

开始正式的使用Hadoop已经有近一年的时间的了,这期间从百度出来,到初见在到现在的BitWare,在不同的公司,用不同的技术解决问题。但是本质上遇到的问题总是那么几个,当然现在很多公司也开始尝鲜的使用Hadoop的了。这个是大环境是如此,可以理解。

Storm和Kafka
从11年起,就开始关注了,Storm在阿里也有部分二线应用,但是整体而言,刚刚满一岁的Storm在nathanmarz大侠的打磨下越来越稳定了,并有部分线上的应用了。所以对这个技术,总体而言,我个人还是很看好的,因为现在使用hadoop无法实现实时的处理,使用HBase来为主要的数据库来使用了,暂时还是能解决.

时间: 2024-10-12 08:36:15

张小龙谈“大数据五种开源处理技术”的相关文章

浅谈大数据技术

忽如一夜春风来,无人不谈大数据.大数据就像前两年的云计算一样,是一个时下被炒得很火的概念.那么什么是大数据,大数据是如何定义的,大数据处理技术有哪些,大数据能给我们带来什么益处?虽然我不知道现在这些概念是如何被炒作的,但是作为一名互联网行业的从业者,作为一个大数据技术的实践者,根据自己的理解和经验发表一点浅显的认识,理解肯定有不到位之处请大家批评指正. 无论是大数据技术还是云计算技术,其实这些技术都不是突然冒出来的,而是随着互联网技术的发展,人们把现有的技术加以整合,总结,概括出来并冠一个新名字

【转】五种开源协议的比较(BSD, Apache, GPL, LGPL, MIT)

当 Adobe.Microsoft.Sun 等一系列巨头开始表现出对”开源”的青睐时,”开源”的时代即将到来! 现今存在的开源协议很多,而经过 Open Source Initiative 组织通过批准的开源协议目前有 58 种(http://www.opensource.org/licenses/alphabetical).我们在常见的开源协议如 BSD, GPL, LGPL, MIT 等都是 OSI 批准的协议.如果要开源自己的代码,最好也是选择这些被批准的开源协议. 这里我们来看四种最常用

大数据挑战与NoSQL数据库技术pdf

下载地址:网盘下载 内容简介 编辑 <大数据挑战与nosql数据库技术>对大数据时代面临的挑战,以及nosql数据库的基本知识做了清晰的阐述,有助于读者整理思路,了解需求,并更有针对性.有选择地深入学习相关知识.[1] 目录 编辑 第1章概论1 1.1引子2 1.2大数据挑战3 1.3大数据的存储和管理5 1.3.1并行数据库5 1.3.2NoSQL数据管理系统6 1.3.3NewSQL数据管理系统8 1.3.4云数据管理11 1.4大数据的处理和分析11 1.5小结13 参考文献13 理论篇

大数据应用中如何进行技术选型?

大数据应用中如何进行技术选型?影响选型有两个主要指标:性能,容量1.能够支持高并发下的请求的快速响应能力2.能够支持大存储和大检索3.要能够保证服务和存储的高可用 初期会进行多个同类型的技术进行对比和调研 Q::如何进行最终的定型?A:分析当前的业务,结合压测(而不是空洞的去想和纠结)来决定定型: 原文地址:https://www.cnblogs.com/big1987/p/10541696.html

大数据平台常见开源工具有哪些?

大数据平台是对海量结构化.非结构化.半机构化数据进行采集.存储.计算.统计.分析处理的一系列技术平台.大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算.高并发处理.高可用处理.集群.实时性计算等,汇集了当前IT领域热门流行的各类技术. 大数据平台常见的一些工具汇集 主要包含:语言工具类.数据采集工具.ETL工具.数据存储工具.分析计算.查询应用及运维监控工具等.以下对各工具作为简要的说明. 一语言工具类 1.Java编程技

浅谈大数据和hadoop家族

按照时间的早晚从大数据出现之前的时代讲到现在.暂时按一个城市来比喻吧,反正Landscape的意思也大概是”风景“的意思. 早在大数据概念出现以前就存在了各种各样的关于数学.统计学.算法.编程语言的研究.讨论和实践.这个时代,算法以及各种数学知识作为建筑的原料(比如钢筋.砖块),编程语言作为粘合剂(比如水泥)构成了一座座小房子(比如一个应用程序),形成了一小片一小片的村庄(比如一台服务器).这个时代村与村之间还没有高速公路(GFS, HDFS, Flume, Kafka等),只有一条泥泞不好走的

浅谈大数据与hadoop家族

按照时间的早晚从大数据出现之前的时代讲到现在.暂时按一个城市来比喻吧,反正Landscape的意思也大概是”风景“的意思. 早在大数据概念出现以前就存在了各种各样的关于数学.统计学.算法.编程语言的研究.讨论和实践.这个时代,算法以及各种数学知识作为建筑的原料(比如钢筋.砖块),编程语言作为粘合剂(比如水泥)构成了一座座小房子(比如一个应用程序),形成了一小片一小片的村庄(比如一台服务器).这个时代村与村之间还没有高速公路(GFS, HDFS, Flume, Kafka等),只有一条泥泞不好走的

鄂维南院士谈大数据:市场非理性、活动多信息量少

"我们的市场是无理性的发展.现在开的会非常多.新闻非常多,新闻里面真正的信息量非常少,整个市场的发展是非理性的."这是北京大数据研究院院长.中科院院士.北京大学教授鄂维南在2016中关村大数据日活动暨京津冀大数据协同发展高峰论坛对当前中国大数据行业特点所谈到观点. 2016年12月12日,2016中关村大数据日活动暨京津冀大数据协同发展高峰论坛在中关村国家自主创新示范区展示中心会议中心召开.本次活动以"数据驱动创新.智慧引领未来"为主题,聚焦京津冀大数据协同发展,近

交易服务助力大数据产业生态系统完善 ——北京软件和信息服务交易所总裁胡才勇谈大数据产业生态系统建设

据有关预测,未来三年内,我国大数据市场将以每年超过60%的速度增长,预计到2017年市场规模将达到37.9亿美元.面对爆炸式增长的市场,面对不远处诱人的"大蛋糕",我国大数据产业生态系统是否做好了准备?目前,我们不得不担忧地看到:在整个大数据产业链条上,标准缺失!制度缺失!相关交易服务配套的缺失! 一个"赤裸裸的问题" 今年4月,国内大数据标准工作组刚刚组建,北京软件和信息服务交易所(以下简称"软交所")总裁胡才勇作为工作组的重要成员之一参与了大