大数据技术发展回顾

2012年以前,大多数企业的数据仓库主要还是构建在关系型数据库上,例如Oracle、Mysql等数据库之上。但是随着企业数据量的增长,关系型数据库已经无法支撑大规模数据集的存储和分析,这种情况在一线互联网公司尤为明显,也是当时急需要解决的问题。

随着2012年Hadoop技术框架的成熟和稳定,一线互联网公司纷纷使用Hadoop技术栈来构建企业大数据分析平台,随后两年基于大数据的应用如雨后春笋一样涌现,比如千人千面的推荐系统、精准定向程序化交易的广告系统、互联网征信、大数据风控系统。时间到了2015年,Hadoop技术栈已然成为了建设数据仓库的首选项,对盲目跟风的企业来讲,有条件会上Hadoop集群、没有条件创造条件也要上Hadoop集群,那一年我听说过节点数最少的是一家做奢侈品的互联网公司,它们用3个物理机部署了一套数据仓库。

与此同时,随着Hadoop技术在企业大规模的深入应用,人们对Hadoop MapReduce框架越来越无法容忍,因为MapRecude在运行过程中会大量操作磁盘,对于复杂的计算任务来讲,动不动就是几个小时,甚至更长时间。然而大数据领域并没有革命性的框架来解决MapReduce慢的问题,人们只能一边抱怨一边想办法优化MapReduce的性能,然而效果并不是很理想。

直到2015年Spark技术框架的成熟,人们终于找到了替代MapReduce的新选择,这是一个将数据放到内存中计算的新框架,是一个比MapReduce快100倍的计算框架,对于拥有大数据量的企业来讲,真的是久旱逢甘霖,大家一股脑的冲进了Spark的怀抱,至此,大数据数据处理开了Spark时代。

有必要一提的是,Spark除了替代MapReduce以外,还带来了Spark Streaming,专门用来解决流式(实时)计算的问题。虽然当时市场有Apache Storm/Alibaba Jstorm等成熟的流式计算框架,但很快被Spark Streaming淘汰了,个人觉得打败Storm的主要原因就是Spark Streaming提高了数据处理的吞吐量和Spark on yarn的运行方式(Storm需要单独部署一套集群)。

时间到了2018年,Spark迎来了新的挑战者,那就是Apache Flink。Apache Flink与生俱来的流式计算处理能力,大大提高了数据处理的实效性,除了实效性的提升,Apache Flink还实现了exactly-once语义(一条数据只处理一次)、State管理。

作为计算领域最先进的技术框架,Apache Flink一路攻城拔寨,气势如虹。随着2018年年底阿里巴巴收购Flink的母公司,Flink China在中国开始了大规模的Flink技术推广。唾手可得中文文档、深入浅出公开视频、阿里巴巴的最佳实践,加快了Flink技术在中国市场的迅猛落地。

到了2019年的今天,人们出门必谈Flink,如同2015年,那时人们出门必谈Spark。

面对技术的快速迭代,不禁唏嘘,虽然MapReduce拼命的完善自己的生态,但是面对Spark的到来,依然毫无一战之力。同样,即使Spark生态圈已经如此完善,覆盖了离线计算、实时计算、机器学习、图计算等等诸多领域,面对Flink的到来,也在节节败退。

相对MapReduce基于磁盘的计算模式,Spark基于内存的计算方式是革命性的创新;相对Spark批量/微批的计算模式,Flink使用了流式计算的模式贴近了数据产生的本源;在它们各自的时代里,它们都代表了先进的生产力,都是以摧枯拉朽之势,雷霆万钧之力击垮对手。然而面对新的技术革新,它们都是那么弱小,不禁想起了刘慈欣《三体》中的有一句话,毁灭你,与你何干?

原文地址:https://www.cnblogs.com/maoxiangyi/p/11193092.html

时间: 2024-08-30 09:20:36

大数据技术发展回顾的相关文章

2015年主宰大数据技术的五大发展趋势

大数据技术自出现以来以一种异常火热的速度发展着,且种种迹象表明这种发展趋势在2015年将会继续持续下去.MapR联合创始人兼首席执行官John Schroeder预测,2015年将有五大发展趋势主导大数据技术,MapR是致力于Hadoop分发版的专业公司. 仅仅几年时间里,大数据技术就从之前的炒作阶段逐渐发展成为新数字时代中的核心技术之一.2014年,企业内部的大数据计划慢慢地从测试阶段走向研发和生产.Schroeder表示,2015年,企业的大数据技术将会进一步推进,并向前发展,甚至会产生更多

从大数据技术变迁猜一猜AI人工智能的发展

目前大数据已经成为了各家互联网公司的核心资产和竞争力了,其实不仅是互联网公司,包括传统企业也拥有大量的数据,也想把这些数据发挥出作用.在这种环境下,大数据技术的重要性和火爆程度相信没有人去怀疑. 而AI人工智能又是基于大数据技术基础上发展起来的,大数据技术已经很清晰了,但是AI目前还未成熟啊,所以本文就天马行空一下,从大数据的技术变迁历史中来找出一些端倪,猜一猜AI人工智能未来的发展. 最近断断续续的在看<极客时间>中「 从0开始学大数据 」专栏的文章,受益匪浅,学到了很多.尤其是非常喜欢作者

基于大数据技术的手机用户画像与征信研究

内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措.首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用. 引言 随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来临.用户画像是电信运营商为了避免管道化风险,实现“数据驱动业务与运营”的重要举措.用户画像与应用大数据技术对客户分类密切相关,是单个客户的众多属性标签的累积:另一方面,在运营商涉足的消费金融领域,对手

浅谈大数据技术

忽如一夜春风来,无人不谈大数据.大数据就像前两年的云计算一样,是一个时下被炒得很火的概念.那么什么是大数据,大数据是如何定义的,大数据处理技术有哪些,大数据能给我们带来什么益处?虽然我不知道现在这些概念是如何被炒作的,但是作为一名互联网行业的从业者,作为一个大数据技术的实践者,根据自己的理解和经验发表一点浅显的认识,理解肯定有不到位之处请大家批评指正. 无论是大数据技术还是云计算技术,其实这些技术都不是突然冒出来的,而是随着互联网技术的发展,人们把现有的技术加以整合,总结,概括出来并冠一个新名字

大数据技术人年度盛事! BDTC 2016将于12月8-10日在京举行

2016年12月8日-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所和CSDN共同协办的2016中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2016)将在北京新云南皇冠假日酒店隆重举办. 图片描述 中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(Hadoop in China,HiC).从2008年仅60余人参加的技术沙龙到当下数千人的技术盛宴,目前已成为国内最具影响力.规模

视频大数据技术在智慧城市中的应用

现代社会的信息量正以飞快的速度增长,这些信息里又积累着大量的数据.预计到2025年,每年产生的数据信息将会有超过1/3的内容驻留在云平台中或借助云平台处理.我们需要对这些数据进行分析和处理,以获取更多有价值的信息.在未来的"智慧城市"中,会有越来越大的结构化以及非结构化的数据.那么我们如何高效地存储和管理这些数据,如何分析这些数据呢?答案是,我们需要强有力的大数据处理系统进行支撑. 作为目前最火热的词汇之一,大数据在各个领域都已有了较为成熟的应用.在视频监控领域,大数据时代正悄悄来临.

大数据的发展带来了不容忽视的挑战

大数据研究领域可谓炙手可热,然而对数据中的价值加以利用仍然充满挑战.今天,我们将对此类挑战进行详尽解析. 大数据的生成速度令人错愕,事实上90%的可用数据是在过去两年当中才刚刚出现.如今我们需要努力分析大数据,从而发现其中可用以指导决策及战略性业务转型的洞察结论. 大数据应用已经开始在改进产品.提升服务水平及客户服务等领域发挥作用.下面来看一组具体数字:只有17%的企业尚无任何计划建立大数据项目,而超过70%的企业已经开始使用大数据——包括将其整合至业务当中,或者作为试水性项目.数据技术正在逐步

浅谈大数据的发展:问题和挑战

  目前,几乎所有世界级的互联网企业,都将业务触角延伸至大数据产业. 无论社交平台逐鹿.电商价格大战还是门户网站竞争,都有它的影子.大数据,正由技术热词变成一股社会浪潮,影响社会生活的方方面面. 何谓大数据?大数据或称巨量资料,是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取.管理.处理.并整理成为帮助企业经营决策更积极目的的资讯.(在 维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的<大数据时代>中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法)大

未来五年内将重塑大数据技术的五种趋势

请大家不要再纠结于一块磁盘能保存多少数据或者企业到底会不会采用Hadoop.关于大数据的真正问题在于,企业用户将如何使用Hadoop.我们的系统到底能在智能化道路上走多远.我们又该如何保证这一切都处于控制之下. 过去几年当中,大数据技术已经迎来长足发展:从一个乐观积极的流行词汇变成人见人恨的疑难杂症,关注重点也由纯粹的数据规模转向对类型及速度的追 求.所谓“大数据”及其相关技术在经历了高度重视.详细甄别以及吐故纳新之后,实际成果很可能与我们的认知存在较大差异.然而时至今日,我们正站在历史的 重要