2016——大数据版图

编者注:原文是 FirstMark Capital 的 Matt Turck 的文章。本文全面总结了大数据领域的发展态势,分析觉得虽然大数据作为一个术语似乎已经过气。可是大数据分析与应用才刚刚開始兴起,在与 AI、人工智能等新兴技术的结合下,大数据的机会或许要比大家想象的还要大。2016年
大数据版图高清版可到此处下载

在喜新厌旧的技术初创企业界。已有 3年 历史 “大数据” 听起来似乎已经过气了。

尽管 Hadoop 在 2006年 已经出来。但 “大数据” 这个概念大概是在 2011 到 2014年 左右才真正火起来的。

也就是在这段时间里,至少是在媒体或者专家眼里。“大数据” 成为了新的 “金子” 或者 “石油”。

然而,至少在我跟业界人士交谈中。大家越来越感觉到这项技术已经在某种程度上陷入了停滞。

2015年 可能是数据领域的那些酷小子转移兴趣,開始沉迷于
AI 以及机器智能、深度学习等很多相关概念的年份。

抛开不可避免的炒作周期曲线态势无论。我们的 “大数据版图” 已经进入第 4 个年头了。趁这个时候退一步来反思一下去年发生了什么。思考一下这个行业的未来会如何是非常有意义的。

那么 2016年 大数据究竟还算不算个 “东西” 呢?我们最好还是探讨一下。

企业技术=艰苦工作

大数据有趣的一点在于,它不再像当初经历过那样有可能成为炒作的题材了。

经过炒作周期后仍能引起广泛兴趣的产品和服务往往那些大家可以接触、可以感知。或者与大众相关联的:比方移动应用、社交网络、可穿戴、虚拟现实等。

但大数据基本上就是管道设施的一种。当然,大数据为很多消费者或商业用户体验提供了动力。但它的核心是企业技术:数据库、分析等,这些东西都是在后端执行的,没几个人能看得见。就像在那个世界工作的不论什么人都知道那样。用一个晚上的时间就想适应企业端的新技术是不可能的。

大数据现象在早期主要是受到了与一批骨干互联网公司(尤其是 Google、Facebook、Twitter
等)的共生关系的推动。这些公司既是核心大数据技术的重度用户。同一时候也是这些技术的创造者。这些公司突然间面对着规模前所未有的庞大数据时,因为本身缺乏传统的(昂贵的)基础设施。也没有办法招募到一些最好的project师,所以仅仅好自己动手来开发所需的技术。后来随着开源运动的迅速发展。一大批此类新技术開始共享到更广的范围。然后,一些互联网大公司的project师离职去创办自己的大数据初创企业。

其它的一些 “数字原生” 公司。包含崭露头角的独角兽公司,也開始面临着互联网大公司的类似需求。因为它们自身也没有传统的基础设施。所以自然就成为了那些大数据技术的早期採用者。而早期的成功又导致了很多其它的创业活动发生,并获得了很多其它的
VC 资助,从而带动了大数据的起势。

高速发展了几年之后,如今我们面临的是更加广阔、但也更加棘手的机遇:让中等规模到跨国公司级别的更大一批企业採用大数据技术。这些公司跟
“数字原生” 公司不一样的是,他们没有从零開始的有利条件。

并且他们失去的会很多其它:这些公司绝大部分的现有技术基础设施都是成功的。

那些基础设施当然未必是功能完备的。组织内部很多人也意识到对自己的遗留基础设施进行现代化应该是早点好过晚点。但他们不会一夜间就把自己的关键业务代替掉。不论什么革命都须要过程、预算、项目管理、试点、局部部署以及完备的安全审计等。大企业对由年轻的初创企业来处理自己基础设施的关键部分的慎重是能够理解的。还有,令创业者感到绝望的是。很多(还是大多数?)企业仍顽固地拒绝把数据迁移到云端(至少不愿迁移到公有云)。

还须要理解的还有一个关键是:大数据的成功不在于实现技术的某一方面(像 Hadoop
什么的),而是须要把一连串的技术、人和流程糅合到一起。你得捕捉数据、存储数据、清洗数据、查询数据、分析数据并对数据进行可视化。这些工作一部分能够由产品来完毕。而有的则须要人来做。一切都须要无缝集成起来。最后,要想让全部这一切发挥作用,整个公司从上到下都须要树立以数据驱动的文化,这样大数据才不不过个 “东西”,并且就是那个(关键的)“东西”。

换句话说:有一堆艰苦的工作要做。

部署阶段

所以,这就是在经过几年引人瞩目的初创企业如雨后春笋冒头。VC 投资频等头条后,我们開始步入大数据的部署期和早期成熟期的原因。

更有前瞻性的大公司(姑且称之为传统技术採用周期的 “早期採用者”)在 2011 到
2013年 间開始实验大数据技术。推出了若干的 Hadoop 试点计划(往往是由于赶时髦)或者尝试一些点方案。他们招募了各种各样此前并不存在的岗位(如 “数据科学家” 或 “首席数据官”)。他们进行了各种努力,包含吧所有数据都堆到一个数据容器(“data lake”)。然后希望紧跟着就会发生奇迹(往往不会)。他们逐步建设自己的内部能力。试验了各种供应商。从试点计划到生产中的局部部署,然后到如今争论要不要全企业铺开(全范围铺开实施的情况还非常罕见)。很多情况下,他们正处在这样一个重要的拐点上。即经过大数据基础设施的数年建设后。可以展示的成果还不多,至少在公司内部的商业用户看来是这种。可是大量吃力不讨好的工作已经做完了,如今開始进入到有影响力的应用部署阶段了。

仅仅是从眼下来看。这种建构在核心架构之上的应用数量还不成比例。

接下来的一波大公司(称之为传统技术採用周期的 “早期多数使用者”)大多数时候对大数据技术是持观望态度的。对于整个大数据方面的东西。他们还在心存一定程度困惑中观望。

直到近期。他们还在指望某个大型供应商(比方
IBM)会提供一个一站式的解决方式。只是如今看来这样的情况最近内并不会出现。

他们看待这个大数据版图的态度是心怀恐惧,在想自己是不是真的须要跟这一堆看起来并没有什么不同的初创企业合作,然后修补出各种解决方式。

生态体系正在成熟

与此同一时候。在初创企业 / 供应商这一块,整个第一波的大数据公司(2009 至 2013年
间成立的那批)如今已经融了数轮的资金,企业规模已经得到了扩大,而且从早期部署的成功或失败中学到了东西,如今他们已经可以提供更成熟的、经受过考验的产品了。少数一些已经成为了上市公司(包含 2015年 上市的 HortonWorks 和 New Relic),而有的(比方 Cloudera、MongoDB 等)融资已经达上亿美元了。

这个领域的 VC 融资活动仍然非常有生气,2016年 的前几周我们见证好几轮相当可观的后期阶段大数据融资事件:DataDog(9400
万美元)。BloomReach(5600 万美元),Qubole(3000 万美元)。PlaceIQ(2500 万美元)等。2015年 大数据初创企业拿到的融资额达到了 66.4 亿美元,占整个技术 VC 总融资额额 11%。

并购活动则开展得中规中矩(自从上一版大数据版图公布以来完毕了 34 项并购。详细可參见附注)

随着该领域的创业活动持续进行以及资金的不断流入,加上适度的少量退出,以及越来越活跃的技术巨头(尤其是
Amazon、Google、IBM)。使得这个领域的公司日益增多,最后汇成了这幅 2016 版的大数据版图。

显然这张图已经非常挤了,并且还有非常多都没办法列进去(关于我们的方法论能够參见附注)

在基本趋势方面,行动開始慢慢从左转到右(即创新、推出新产品和新公司),从基础设施层(开发人员
/ project师的世界)转移到分析层(数据科学家和分析师的世界)乃至应用层(商业用户和消费者的世界),“大数据原生应用” 已经在迅速冒头—这多少符合了我们原先的一些预期。

大数据基础设施:仍有大量创新

Google 关于 MapReduce 和 BigTable 的论文(Cutting
和 MikeCafarella 由于这个而做出了 Hadoop)的诞生问世已有 10年 了,在这段时间里,大数据的基础设施层已经逐渐成熟,一些关键问题也得到了解决。

可是,基础设施领域的创新仍然富有活力,这非常大程度上是得益于可观的开源活动规模。

2015年 无疑是 Apache Spark 之年。

自我们公布上一版大数据版图以来。这个利用了内存处理的开源框架就開始引发众多讨论。

自那以后,Spark
受到了从 IBM 到 Cloudera 的各式玩家的拥护,让它获得了可观的信任度。

Spark 的出现是非常有意义的,由于它攻克了一些导致 Hadoop 採用放缓的关键问题:Spark 速度变快了非常多(基准測试表明 Spark 比 Hadoop 的 MapReduce 快 10 到 100 倍),更easy编程,而且跟机器学习可以非常好地搭配。

除了 Spark 以外,还出现了其它的一些令人兴奋的框架,比方 Flink、Ignite、Samza、Kudu
等。这些框架的发展势头也非常好。一些思想领袖觉得,Mesos(数据中心资源管理系统,把数据中心当作一台大计算资源池进行编程)的出现也刺激了对 Hadoop 的需求。

即便在数据库的世界里。新兴的玩家似乎也越来越多。

多到市场已经难以承受的地步,这里发生了非常多令人兴奋的事情,从图形数据库(如
Neo4j )的成熟,到专门数据库的推出(如统计时序数据库 InfluxDB),乃至于 CockroachDB 的出现(受 Google Spanner 灵感启示诞生的融合了 SQL 与 NoSQL 好处的新型数据库)。数据仓库也在演变(如云数据仓库 Snowflake)。

大数据分析:如今跟 AI 结合了

大数据分析过去几个月出现的一股趋势是,越来越关注利用人工智能(形式和风格各异)来帮助分析大规模的数据,从而获得预測性的洞察。

事实上近期出现复兴的 AI 非常大程度上算是大数据的产物。

深度学习(近期受到关注最多的
AI 领域)背后的算法基本上是几十年前就诞生了的,但直到近期可以以足够廉价、足够高速地应用到大规模数据之后才发挥出了它的最大潜能。AI 与大数据之间的关系如此紧密,以至于业界专家如今觉得 AI 已经令人懊恼地 “与大数据陷入了热恋其中”。

只是反过来,AI 如今也在帮助大数据实现后者的承诺。

分析对 AI/ 机器学习越来越多的关注也符合大数据下一步演进的趋势:如今数据我都有了,但到底从中能得到什么样的洞察呢?当然,这件事情能够让数据科学家来解决,从一開始他们的角色就是实现机器学习,否则的话就得想出模型来发现数据的意义。

可是机器智能如今正在逐渐发挥辅助数据科学家的作用—仅仅须要倒腾数据,新兴的产品就能从中提炼出数学公式(如
Context Relevant)或者自己主动建立和推荐最有可能返回最佳结果的数据科学模型(如 DataRobot)。一批新的 AI 公司提供的产品可以自己主动识别像图像这种复杂实体(如 Clarifai、Dextro),或者提供强大的预測性分析(如 HyperScience)。

同一时候,随着基于无监督学习的产品的传播和改善。看看它们与数据科学家之间的关系怎样演变将很有趣—将来这两者是敌还是友呢?AI
当然不会非常快代替数据科学家的位置,但估计会看到数据科学家通常运行的更简单一点的工作越来越多的自己主动化,从而能够极大提高生产力。

但无论如何,AI/ 机器学习绝不是大数据分析唯一值得关注的趋势。大数据 BI 平台的普遍成熟及其日益增强的实时能力也是一个令人兴奋的趋势(如
SiSense、Arcadia Data 等)。

大数据应用:真正的加速

随着一些核心基础设施的挑战得到解决,大数据应用层正在高速构建。

在企业内部,已经出现了各种工具来帮助跨多个核心职能的企业用户。例如说,销售和营销的大数据应用通过处理大规模的内外部数据来帮助找出哪位客户可能会购买、续约或者流失。且速度越来越实时化。客服应用帮助个性化服务。

人力应用帮助找出怎样吸引和挽留最好的员工等。

专门的大数据应用差点儿在不论什么一个垂直行业都有出现,从医疗保健(尤其是基因组学和药物研究)到金融、时尚乃至于执法(如
Mark43)。

有两个趋势值得强调一下

首先。这些应用非常多都是 “大数据原生” 的,本身都是依托在最新的大数据技术基础上开发的,代表了一种客户无须部署底层大数据技术就可以利用大数据的有趣方式—由于那些底层技术已经是打包的。至少对于特定功能来说是这种。

例如说,ActionIQ
就是在 Spark 基础上开发的(或者说是 Spark 的一个派生)。所以它的客户可以在营销部门利用 Spark 的威力而不须要自己部署 Spark,这样的情况下是没有 “装配线” 的。

其次,AI 在应用层也有非常强大的存在。

例如说。在猫捉老鼠的安全领域中。AI 被广泛用来对付黑客,实时识别和对抗网络攻击。去年已经出现了一个
AI 驱动的数字助手行业,支持从任务自己主动化到会议安排(如 x.ai)以及购物等差点儿一切事情。这些解决方式对 AI 的依赖程度不一。从差点儿 100%自己主动化到 “有人參与” 等情况各不同样,可是能够明白的是。人的能力在 AI 帮助下得到了增强。

结论

从非常多方面来看,我们仍然处在大数据现象的早期发展阶段。虽然已经花费了数年时间。但降低基础设施来存储和处理大规模数据还仅仅是第一阶段。AI/
机器学习已经成为大数据应用层的一股迅猛趋势。

大数据与 AI 的结合将会推动非常多行业的惊人创新。

从这个角度来说,大数据的机会或许要比大家想象的还要大。

然而,随着大数据继续走向成熟。这个术语本身可能会消失,或者变得太过时以至于没有人会再使用这个词。

这就是成功赋能技术令人讽刺的命运归宿—因为技术的广泛传播。然后到达无所不在的地步,最后被人熟视无睹。

附注:

1)因为不可能把大数据的全部公司都列到图表上。所以我们仅仅能依照一定原则筛选部分公司出来,筛选原则一是进行过
1 轮或多轮 VC 融资的初创企业,二是把一些我们特别感兴趣的较早期初创企业列进去。

2)值得注意的收购包含 Revolution Analytics(微软
2015年1月 收购),Mortar(DataDog2015年2月 收购),Acunu 和 FoundationDB(2015年3月 被苹果收购),AlchemyAPI(2015年3月 被 IBM 收购),Amiato(2015年4月 被 Amazon 收购),Next Big Sound(2015年5月 被 Pandora 收购)。1010Data(Advance/Newhouse 2015年8月 收购),Boundary(BMC 2015年8月 收购),Bime Analytics(Zendesk 2015年10月
收购)。CleverSafe(IBM 2015年10月 收购),ParStream(2015年11月 被思科收购)。Lex Machine(2015年11月 被 LexisNexis 收购),DataHero(2016年1月 被 Cloudability 收购)。

本文编译自:mattturck.com,如若转载,请注明出处:http://36kr.com/p/5043066.html

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center">

GeoHadoop

时间: 2024-10-28 09:54:43

2016——大数据版图的相关文章

Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 “昔我十年前,与君始相识.” 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务. 2006年项目成立的一开始,“Hadoop”这个单

学无止境,如何学好大数据 & Python?

1.<2016大数据面面观> 徐培成,多年开发和教学经验,Hadoop专家讲师,Java高级讲师.现为十八掌科技公司创始人,专攻大数据技术与发展方向. 简介:介绍大数据在2016年发展现状.趋势以及各类企业在大数据方面的布局和战略调整.中小型企业在大数据方面的渐行渐近的行业趋势,BAT公司在引领全国大数据市场方向的同时,直接利用数据就可以进行盈利.数据就是企业财富之源. 时间:4月7日  晚8点30-10点 2.<从面授班学员表现讲述零基础该如何学好大数据?> 徐培成,多年开发和教

数据自生长机制:数博会揭示大数据成功的新逻辑

在大数据领域,我国已经出现4家估值超过100亿美元的超级独角兽企业,分别是蚂蚁金服(估值750亿美元).滴滴出行(估值500亿美元).美团点评(估值178.8亿美元).今日头条(估值103亿美元),4家估值之和占我国大数据独角兽总估值比例达到67.1%. 2017年5月27日,在贵阳数博会上,北京市长城企业战略研究所(简称"长城战略咨询")发布了<2016中国大数据独角兽企业发展报告>(简称<报告>).根据该<报告>,2016年中国大数据(准)独角兽

一篇文章告诉你大数据应该怎么学

最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题.由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚,本文从数据科学和大数据关键技术体系角度,来说说大数据的核心技术什么,到底要怎么学习它,以及怎么避免大数据学习的误区,以供参考. 1.大数据应用的目标是普适智能 要学好大数据,首先要明确大数据应用的目标,我曾经讲过大数据就好比万金油,像百度几年前提的框计算,这

2016年中国(山西省)高校云计算与大数据学科建设研讨会在太原顺利召开

日前,2016年中国(山西省)高校云计算与大数据学科建设研讨会在山西黄河京都大酒店3楼5号会议室成功举办.此次研讨会由云计算与大数据专业建设协作组主办.主要参会人员来自山西省10余所院校相关院校的院长及专业及负责人和一线教师. 本研讨会将针对"高校教育的云计算与大数据学科建设"进行专门的研讨与交流.云计算和大数据是推动信息技术能力实现按需供给.促进信息技术和数据资源充分利用的全新业态,是信息化发展的重大变革和必然趋势.值此经济转型和产业升级的关键时期,为加强高校云计算与大数据学科建设,

2016全国高校大数据专业师资培训班在秦皇岛成功举办

2016年7月29日,由中国电子学会嵌入式系统与机器人分会主办的2016全国高校大数据专业师资培训班(暑假)在河北.秦皇岛河北科技师范学院圆满落幕. 本期师资培训班从7月22日开始,为期8天,河北科技师范学院作为协办方为培训班提供了培训场地,而作为承办方的北京奇观技术有限责任公司以及北京博创智联科技有限公司提供了培训使用的实验设备.大数据教学实验系统以及云计算.大数据领域内的优秀讲师和强大的技术支持团队. 本期培训课程内容是针对全国高校计算机方向量身定制的,涵盖了系统安装配置.提供上层编程API

2016年大数据Spark“蘑菇云”行动之flume整合spark streaming

近期,听了王家林老师的2016年大数据Spark"蘑菇云"行动,需要将flume,kafka和Spark streaming进行整合. 感觉一时难以上手,还是先从简单着手吧:我的思路是这样的,flume产生数据,然后输出到spark streaming,flume的源数据是netcat(地址:localhost,端口22222),输出是avro(地址:localhost,端口是11111).Spark streaming的处理是直接输出有几个events. 一.配置文件 Flume 配

大数据技术人年度盛事! BDTC 2016将于12月8-10日在京举行

2016年12月8日-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所和CSDN共同协办的2016中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2016)将在北京新云南皇冠假日酒店隆重举办. 图片描述 中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(Hadoop in China,HiC).从2008年仅60余人参加的技术沙龙到当下数千人的技术盛宴,目前已成为国内最具影响力.规模

2016年大数据Spark“蘑菇云”行动之spark streaming消费flume采集的kafka数据Directf方式

王家林老师的课程:2016年大数据Spark"蘑菇云"行动之spark streaming消费flume采集的kafka数据Directf方式作业.     一.基本背景 Spark-Streaming获取kafka数据的两种方式Receiver与Direct的方式,本文介绍Direct的方式.具体的流程是这样的: 1.Direct方式是直接连接到kafka的节点上获取数据了. 2.基于Direct的方式:周期性地查询Kafka,来获得每个topic+partition的最新的offs