【转】百亿级实时大数据分析项目,为什么不用Hadoop?

百亿数量级的大数据项目,软硬件总体预算只有30万左右,需求是进行复杂分析查询,性能要求多数分析请求达到秒级响应。

遇到这样的项目需求,预算不多的情况,似乎只能考虑基于Hadoop来实施。
理论上Hadoop撑住百亿数量级没问题,但想要秒级响应各种查询分析就不行了。我们先大概分析一下Hadoop的优缺点。

Hadoop

Hadoop目前几乎是大数据的代名词,很多企业都基于Hadoop搭建自己的大数据业务。

以下是Hadoop的主要优点:

1.
Hadoop集群的扩展性是其一大特点,Hadoop可以扩展至数千个节点,对数据持续增长,数据量特别巨大的需求很合适。

2.
Hadoop的成本是其另一大优势,由于Hadoop是开源项目,而且不仅从软件上节约成本,硬件上的要求也不高。目前去IOE潮流风行,低成本的Hadoop也是一大推手。

3. Hadoop生态群活跃,其周边开源项目丰富,HBase,
Hive,Impala等等基础开源项目众多。

那么Hadoop的不足有哪些呢?

Hadoop不适合做实时分析系统。

1. 从通讯层的技术上来说有如下原因:

?   
任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务。

?   
基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行。

?   
类似的JVM进程启停有5、6次之多。

?    Reduce
Task只能在全部Map Task完成之后才能启动。

2. 缺乏专业的支持服务

因为是开源项目,缺少专业的商业支持服务,公司需要储备专业Hadoop知识的专家来保证系统的正常运转。

3. Hadoop可以支持百亿的数据量,但很难应对秒级响应的需求

即使是数亿的数据量,Hadoop也只适合做分钟级别的离线分析系统。

转自:http://www.yonghongtech.com/webShare/webshare_w4.html

时间: 2024-10-15 01:38:06

【转】百亿级实时大数据分析项目,为什么不用Hadoop?的相关文章

基于分布式关系型数据库,实现轻松应对百亿级数据分析场景解决方案

MyCat是什么? 从定义和分类来看,它是一个开源的分布式数据库系统,是一个实现了MySQL协议的服务器,前端用户可以把它看作是一个数据库代理,用MySQL客户端工具和命令行访问,而其后端可以用MySQL原生协议与多个MySQL服务器通信,也可以用JDBC协议与大多数主流数据库服务器通信,其核心功能是分表分库读写分离,即将一个大表水平分割为N个小表,存储在后端MySQL服务器里或者其他数据库里.也可以指定多个写库多个读库. MyCat发展到目前的版本,已经不是一个单纯的MySQL代理了,它的后端

使用Storm实现实时大数据分析

摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战.Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析.CSDN在此编译.整理. 简单和明了,Storm让大数据分析变得轻松加愉快. 当今世界,公司的日常运营经常会生成TB级别的数据.数据来源囊括了互联网装置可以捕获的任何类型数据,网站.社交媒体.交易型商业数据以及其它商业环境中创建的数据.考虑到数据的生成量,实时处理成为了许多机

Redis百亿级Key存储方案

1 需求背景 该应用场景为AdMaster DMP缓存存储需求,DMP需要管理非常多的第三方id数据,其中包括各媒体cookie与自身cookie(以下统称admckid)的mapping关系,还包括了admckid的人口标签.移动端id(主要是idfa和imei)的人口标签,以及一些黑名单id.ip等数据. 在hdfs的帮助下离线存储千亿记录并不困难,然而DMP还需要提供毫秒级的实时查询.由于cookie这种id本身具有不稳定性,所以很多的真实用户的浏览行为会导致大量的新cookie生成,只有

(转)日交易额百亿级交易系统的超轻量日志实现

逛园子的时候偶然发现了<日交易额百亿级交易系统的超轻量日志实现>,感觉博主的思路很强,可惜是一个JAVA版本,于是我将它翻译为C#. 开发环境VS2015+.net framework4. 原文地址,http://www.cnblogs.com/cyfonly/p/6139049.html 因为JAVA和C#语言的近似性,很多直接内容直接从原文COPY的,博主勿怪.. 使用方式:(直接Copy原文) /获取单例 FLogger logger = FLogger.getInstance(); /

百亿级日访问量的应用如何做缓存架构设计?

微博日活跃用户 1.6 亿+,每日访问量达百亿级,面对庞大用户群的海量访问,良好的架构且不断改进的缓存体系具有非常重要的支撑作用. 本文由新浪微博技术专家陈波老师,分为如下四个部分跟大家详细讲解那些庞大的数据都是如何呈现的: 微博在运行过程中的数据挑战 Feed 平台系统架构 Cache 架构及演进 总结与展望 微博在运行过程中的数据挑战 Feed 平台系统架构 Feed 平台系统架构总共分为五层: 最上面是端层,比如 Web 端.客户端.大家用的 iOS 或安卓的一些客户端,还有一些开放平台.

日访问量百亿级的应用如何做缓存架构设计

微博日活跃用户1.6亿+,每日访问量达百亿级,面对庞大用户群的海量访问,良好架构且不断改进的缓存体系具有非常重要的支撑作用. 4月21日,中生代技术走进盒子科技的现场技术交流活动上,新浪微博技术专家陈波为大家讲解了微博Cache架构的设计实践过程. 刷微博吗?跟我们一起听听那些庞大的数据是如何呈现的吧! 数据挑战 Feed平台系统架构 总共分为五层,最上层是端层,比如web端,客户端,大家用的ios或安卓的一些客户端,还有一些开放平台,第三方接入的一些接口.下面是平台接入层,不同的池子,主要是为

BuzzSumo:什么样的文章能获得疯转?(基于1亿篇文章大数据分析)

BuzzSumo:什么样的文章能获得疯转?(基于1亿篇文章大数据分析) 社交媒体追踪服务分析工具BuzzSumo,2014年5月前后对社交媒体上超过1亿篇文章进行了分析,试图找出一个答案: 什么样的内容才能让用户乐于分享,获得病毒式传播? 这个大问题又内含或细分为一些小问题: ◆那些获得疯转的文章,激起了用户哪种情绪? ◆清单?图表?哪类文章更有可能被用户分享? ◆读者更喜欢分享短文章还是长文章?社交媒体上的文章,最理想的长度是怎样的? ◆“信任”是不是驱动用户分享文章的一个主要因素? ◆文章有

Ebay开源 Pulsar:实时大数据分析平台

作者:汪兴朗 汪明明 王巧玲 eBay作为全球性的商务平台和支付行业领先者,拥有海量的用户行为数据.基于现有的hadoop大数据处理,已经不能够满足业务上对实时性的需求.基于eBay过去的大数据处理的经验和对最新技术的运用,eBay探索出一个对海量的数据流进行实时的收集,处理,分发和分析的平台.并于2015年2月底开源此平台: Pulsar. Pulsar作为一个复杂事件处理平台,具有快速,准确,灵活的特性,保证点到点的低延时和高可靠,从而很好得满足了的eBay秒级实时数据分析的需求.同时每秒百

百亿级数据10万字段属性的秒级检索解决方案以及实现

课程下载地址: https://pan.baidu.com/s/1zr5riwZtdRgnVQRetQnG7A 提取码: 5xg8 平台型创业型公司,会有多个品类,像生活信息服务类网站的有:58同城,赶集网等等,他们的类别非常多,每个垂直领域都会分为很多类别,每 个类别下又分很多子类别,每个类别或者子类别的属性都不一样,像这么庞大的数据,字段属性可以达到10万级别,同时数据量可以达到百亿级别 ,很多异构数据的存储需求.基于这么庞大的数据,我们需要达到秒级查询. 那么我们该怎么设计呢?本课程讲手把