华为内部狂转好文:有关大数据,看这一篇就够了

一、详解时髦词汇:大数据

似乎一夜之间,大数据(Big Data)变成一个IT行业中最时髦的词汇。

首先,大数据不是什么完完全全的新生事物,Google的搜索服务就是一个典型的大数据运用,根据客户的需求,Google实时从全球海量的数字资产 (或数字垃圾)中快速找出最可能的答案,呈现给你,就是一个最典型的大数据服务。只不过过去这样规模的数据量处理和有商业价值的应用太少,在IT行业没有 形成成型的概念。现在随着全球数字化、网络宽带化、互联网应用于各行各业,累积的数据量越来越大,越来越多企业、行业和国家发现,可以利用类似的技术更好 地服务客户、发现新商业机会、扩大新市场以及提升效率,才逐步形成大数据这个概念。

有一个有趣的故事是关于奢侈品营销的。PRADA 在纽约的旗舰店中每件衣服上都有RFID码。每当一个顾客拿起一件PRADA进试衣间,RFID会被自动识别。同时,数据会传至PRADA总部。每一件衣 服在哪个城市哪个旗舰店什么时间被拿进试衣间停留多长时间,数据都被存储起来加以分析。如果有一件衣服销量很低,以往的作法是直接干掉。但如果RFID传 回的数据显示这件衣服虽然销量低,但进试衣间的次数多。那就能另外说明一些问题。也许这件衣服的下场就会截然不同,也许在某个细节的微小改变就会重新创造 出一件非常流行的产品。

从这个案例来看,大数据并不是很神奇的事情。就如同电影《永无止境》提出的问题:人类通常只使用了20%的大脑,如果剩余80%大脑潜能被激发出来,世 界会变得怎样?在企业、行业和国家的管理中,通常只有效使用了不到20%的数据(甚至更少),如果剩余80%数据的价值激发起来,世界会变得怎么样呢?特 别是随着海量数据的新摩尔定律,数据爆发式增长,然后数据又得到更有效应用,世界会怎么样呢?

单个的数据并没有价值,但越来越多的数据累加,量变就会引起质变,就好像一个人的意见并不重要,但1千人、1万人的意见就比较重要,上百万人就足以掀起巨大的波澜,上亿人足以改变一切。

中 国的航班晚点非常多,相比之下美国航班准点情况好很多。这其中,美国航空管制机构一个的好做法发挥了积极的作用,说起来也非常简单,就是美国会公布每个航 空公司、每一班航空过去一年的晚点率和平均晚点时间,这样客户在购买机票的时候就很自然会选择准点率高的航班,从而通过市场手段牵引各航空公司努力提升准 点率。这个简单的方法比任何管理手段都直接和有效。

没有整合和挖掘的数据,价值也呈现不出来。《永无止境》中的库珀如果不能把海量信息围绕某个公司的股价整合起来、串联起来,这些信息就没有价值。

因此,海量数据的产生、获取、挖掘及整合,使之展现出巨大的商业价值,这就是我理解的大数据。在互联网对一切重构的今天,这些问题都不是问题。因为,大数据是互联网深入发展的下一波应用,是互联网发展的自然延伸。目前,可以说大数据的发展到了一个临界点,因此才成为IT行业中最热门的词汇之一。

二、大数据将重构很多行业的商业思维和商业模式

我想以对未来汽车行业的狂野想象来展开这个题目。

在人的一生中,汽车是一项巨大的投资。以一部30万车、7年换车周期来算,每年折旧费4万多(这里还不算资金成本),加上停车、保险、油、维修、保养等各项费用,每年耗费应在6万左右。汽车产业也是一个很长产业链的龙头产业,这个方面只有房地产可以媲美。

但同时,汽车产业链是一个低效率、变化慢的产业。汽车一直以来就是四个轮子、一个方向盘、两排沙发(李书福语)。这么一个昂贵的东西,围绕车产生的数据却少的可怜,行业产业链之间几无任何数据传递。

我们在这里狂野地想象一番,如果将汽车全面数字化,都大数据了,会产生什么结果?

有些人说,汽车数字化,不就是加个MBB模块吗?不,这太小儿科了。在我理想中,数字化意味着汽车可以随时联上互联网,意味着汽车是一个大型计算系统加 上传统的轮子、方向盘和沙发,意味着可以数字化导航、自动驾驶,意味着你和汽车相关的每一个行动都数字化,包括每一次维修、每一次驾驶路线、每一次事故的 录像、每一天汽车关键部件的状态,甚至你的每一个驾驶习惯(如每一次的刹车和加速)都记录在案。这样,你的车每月甚至每周都可能产生T比特的数据。

好了,我们假设这些数据都可以存储并分享给相关的政府、行业和企业。这里不讨论隐私问题带来的影响,假设在隐私保护的前提下,数据可以自由分享。

那么,保险公司会怎么做呢?保险公司把你的所有数据拿过去建模分析,发现几个重要的事实:一是你开车主要只是上下班,南山到坂田这条线路是非繁华路线, 红绿灯很少,这条路线过去一年统计的事故率很低;你的车况(车的使用年限、车型)好,此车型在全深圳也是车祸率较低;甚至统计你的驾驶习惯,加油平均,临 时刹车少,超车少,和周围车保持了应有的车距,驾驶习惯好。最后结论是你车型好,车况好,驾驶习惯好,常走的线路事故率低,过去一年也没有出过车祸,因此 可以给予更大幅度的优惠折扣。这样保险公司就完全重构了它的商业模式了。在没有大数据支撑之前,保险公司只把车险客户做了简单的分类,一共分为四种客户, 第一种是连续两年没有出车祸的,第二种过去一年没有出车祸,第三种过去一年出了一次车祸,第四种是过去一年出了两次及以上车祸的,就四种类型。在大数据的 支持下,保险公司可以真正以客户为中心,把客户分为成千上万种,每个客户都有个性化的解决方案,这 样保险公司经营就完全不同,对于风险低的客户敢于大胆折扣,对于风险高的客户报高价甚至拒绝,一般的保险公司就完全难以和这样的保险公司竞争了。拥有大数 据并使用大数据的保险公司比传统公司将拥有压倒性的竞争优势,大数据将成为保险公司最核心的竞争力,因为保险就是一个基于概率评估的生意,大数据对于准确 评估概率毫无疑问是最有利的武器,而且简直是量身定做的武器。

在大数据的支持下,4S店的服务也完全不同了。车况信息会定期传递到4S店,4S店会根据情况及时提醒车主及时保养和维修,特别是对于可能危及安全的问题,在客户同意下甚至会采取远程干预措施,同时还可以提前备货,车主一到4S店就可以维修而不用等待。

对于驾驶者来说,不想开车的时候,在大数据和人工智能的支持下,车辆可以自动驾驶,并且对于你经常开的线路可以自学习自优化。谷歌的自动驾驶汽车,为了 对周围环境作出预测,每秒钟要收集差不多1GB的数据,没有大数据的支持,自动驾驶是不可想象的;在和周围车辆过近的时候,会及时提醒车主避让;上下班的 时候,会根据实时大数据情况,对于你经常开车的线路予以提醒,绕开拥堵点,帮你选择最合适的线路;到城市中心,寻找车位是一件很麻烦的事情,但未来你可以 到了商场门口后,让汽车自己去找停车位,等想要回程的时候,提前通知让汽车自己开过来接。

车辆是城市最大最活跃的移动物体,是拥堵的来源,也是最大的污染来源之一。数字化的车辆、大数据应用将带来很多的改变。红绿灯可以自动优化,根据不同道 路的拥堵情况自动进行调整,甚至在很多地方可以取消红绿灯;城市停车场也可以大幅度优化,根据大数据的情况优化城市停车位的设计,如果配合车辆的自动驾驶 功能,停车场可以革命性演变,可以设计专门为自动驾驶车辆的停车楼,地下、地上楼层可以高达几十层,停车楼层可以更矮,只要能高于车高度即可(或者把车竖 起来停),这样将对城市规划产生巨大的影响;政府还可以每年公布各类车型的实际排污量、税款、安全性等指标,鼓励民众买更节能、更安全的车。

电子商务和快递业也可能发生巨大的变化。运快递的车都可以自动驾驶,不用赶白天的拥堵的道路,晚上半夜开,在你家门口设计自动接收箱,通过密码开启自动投递进去,就好像过去报童投报一样。

这么想象下来,我认为,汽车数字化、互联网化、大数据应用、人工智能,将对汽车业及相关的长长的产业链产生难以想象的巨大变化和产业革命,具有无限的想 象空间,可能完全被重构。当然,要实现我所描述的场景,估计至少50年、100年之后的事情了,估计我这辈子是看不到的。

在这个章节的最后,我想总结一下自己对大数据的看法。

第一,大数据使企业真正有能力从以自我为中心改变为以客户为中心。企业是为客户而生,目的是为股东获得利润。只有服务好客户,才能获得利润。大数据的使用能够使对企业的经营对象从客户的粗略归纳(就是所谓提炼归纳的“客户群”)还原成一个个活生生的客户,这样经营就有针对性,对客户的服务就更好,投资效率就更高。

第二,大数据一定程度上将颠覆了企业的传统管理方式。现代企业的管理方式是来源于对军队的模仿,依赖于层层级级的组织和严格的流程,依赖信息的层层汇集、收敛来制定正确的决策,再通过决策在组织的传递与分解,以及流程的规范,确保决策得到贯彻,确保每一次经营活动都有质量保证,也确保一定程度上对风险的规避。

第三,大数据另外一个重大的作用是改变了商业逻辑,提供了从其他视角直达答案的可能性。现 在人的思考或者是企业的决策,事实上都是一种逻辑的力量在主导起作用。大数据给了我们其他的选择,就是利用数据的力量,直接获得答案。就好像我们学习数 学,小时候学九九乘法表,中学学几何,大学还学微积分,碰到一道难题,我们是利用了多年学习沉淀的经验来努力求解,但我们还有一种方法,在网上直接搜索是 不是有这样的题目,如果有,直接抄答案就好了。很多人就会批评说,这是抄袭,是作弊。但我们为什么要学习啊?不就是为了解决问题嘛。

第四,通过大数据,我们可能有全新的视角来发现新的商业机会和重构新的商业模式。我 们现在看这个世界,比如分析家中食品腐败,主要就是依赖于我们的眼睛再加上我们的经验,但如果我们有一台显微镜,我们一下就看到坏细菌,那么分析起来完全 就不一样了。大数据就是我们的显微镜,它可以让我们从全新视角来发现新的商业机会,并可能重构商业模型。我们的产品设计可能不一样了,很多事情不用猜了, 客户的习惯和偏好一目了然,我们的设计就能轻易命中客户的心窝;我们的营销也完全不同了,我们知道客户喜欢什么、讨厌什么,更有针对性。特别是显微镜再加 上广角镜,我们就有更多全新的视野了。这个广角镜就是跨行业的数据流动,使我们过去看不到的东西都能看到了。

最后一点,我想谈的是大数据发展对IT本身技术架构的革命性影响。大 数据的根基是IT系统。我们现代企业的IT系统基本上是建立在IOE(IBM小型机、Oracle数据库、EMC存储)+Cisco模型基础上的,这样的 模型是Scale-UP型的架构,在解决既定模型下一定数据量的业务流程是适配的,但如果是大数据时代,很快会面临成本、技术和商业模式的问题,大数据对 IT的需求很快就会超越了现有厂商架构的技术顶点,超大数据增长将带来IT支出增长之间的线性关系,使企业难以承受。因此,目前在行业中提出的去IOE趋 势,利用Scale-out架构+开源软件对Scale-up架构+私有软件的取代,本质是大数据业务模型所带来的,也就是说大数据将驱动IT产业新一轮 的架构性变革。去IOE潮流中的所谓国家安全因素,完全是次要的。

所以,美国人说,大数据是资源,和大油田、大煤矿一样,可以源源不断挖出大财富。而且和一般资源不一样,它是可再生的,是越挖越多、越挖越值钱的,这是反自然规律的。对企业如此,对行业、对国家也是这样,对人同样如此。

三、新智慧生物的诞生?

自然语言的机器翻译,是长期以来人工智能研究的一个重要体现。人工智能从过去到未来都有清晰而巨大的商业前景,是以前IT业的热点,其热度一点不亚于现在的“互联网”和“大数据”。但是,人类过去在推进人工智能的研究遇到了巨大的障碍,最后几乎绝望。

当时人工智能就是模拟人的智能思考方式来构筑机器智能。以机器翻译来说,语言学家和语言专家必须不辞劳苦地编撰大型词典和与语法、句法、语义学有关的规 则,数十万词汇构成词库,语法规则高达数万条,考虑各种情景、各种语境,模拟人类翻译,计算机专家再构建复杂的程序。最后发现人类语言实在是太复杂了,穷 举式的做法根本达不到最基本的翻译质量。这条道路最后的结果是,1960年代后人工智能的技术研发停滞不前数年后,科学家痛苦地发现以“模拟人脑”、“重 建人脑”的方式来定义人工智能走入一条死胡同,这导致后来几乎所有的人工智能项目都进入了冷宫。

后来有人就想,机器为什么要向人学习逻辑呢,又难学又学不好,机器本身最强大的是计算能力和数据处理能力,为什么不扬长避短、另走一条道路呢?这条道路 就是IBM“深蓝”走过的道路。1997年5月11日,国际象棋大师卡斯帕罗夫在和IBM公司开发的计算机“深蓝”进行对弈时宣布失败,计算机“深蓝”因 此赢得了这场意义深远的“人机对抗”。

类似的逻辑在后续也用到了机器翻译上。谷歌、微软和IBM都走上了这条道路。就是主要采用匹配法,同时结合机器学习,依赖于海量的数据及其相关相关统计信息,不管语法和规则,将原文与互联网上的翻译数据对比,找到最相近、引用最频繁的翻译结果做为输出。

总而言之,利用这种技术,计算机教会自己从大数据中建立模式。有了足够大的信息量,你就能让机器学会做看上去有智能的事情,别管是导航、理解话语、翻译语言,还是识别人脸,或者模拟人类对话。

假设目前刚刚兴起的穿戴式计算设备取得巨大的进展。这种进展到什么程度呢?就是你家的宠物小狗身上也装上了各种传感器和穿戴式设备,比如有图像采集,有声音采集,有嗅觉采集,有对小狗的健康进行监控的小型医疗设备,甚至还有电子药丸在小狗的胃中进行消化情况监控。小 狗当然也联上网,也一样产生了巨大的数据量。这时,我们假设基于这些大数据建模,能够模拟小狗的喜怒哀乐,然后还能够通过拟人化的处理进行语音表达,换句 话说,就是模拟小狗说人话,比如主人回家时,小狗摇尾巴,旺旺叫,那么这个附着于小狗身上的人工智能系统就会说,“主人,真高兴看到你回家”。不仅如此, 你还可以和小狗的人工智能系统进行对话,因为这个人工智能系统能基本理解你的意思,又能够代替小狗拟人化表达。

我们继续把这个故事来做延伸,把小狗换成未来的人,人在一生中产生大量的数据,根据这些数据建模可以直接推演出很多的结论,比如喜欢看什么样的电影啊,喜欢什么口味的菜啊,在遇到什么问题时会怎么采取什么行动啊。

这样的数据一直累积下来,直到这个人去世。我们有个大胆的想象,这些巨大的数据能否让这个人以某种方式继续存在下去呢?后代有什么问题需要寻求答案的时 候,比如在人生的关键抉择时,比如大学要上什么专业、该不该和某个姑娘结婚,可不可以问问这个虚拟的人(祖先)有什么建议呢?答案是当然可以。在这种情况 下,数字化生存不仅在人生前存在,也可以在人死后继续存在。人死了,可以在虚拟空间中继续存在。一辈子、一辈子的人故去,这些虚拟的智慧都可以继续存在, 假设很多年过去了,这些虚拟智慧的祖宗们太多太多了,活着的子孙们甚至可以组建一个“祖宗联席参谋委员会”,优选那些考得好的(比如中过状元),当过国家 高级公务员(比如太守)、当过企业高管(比如CEO)、当过教授、当过作家的等等当过成功人士的祖宗,专门用于后代的咨询、解惑。让这些祖宗死后还有竞 争,别死了就没有事情干了。

这些说明什么呢?就是随着大数据和机器学习的进一步进展,这个世界出现了新的智慧生物!大数据和机器学习在改变、重构和颠覆很多企业、行业和国家以后,终于到了改变人类自身的时候了!人类的演进出现了新的分支!

有科学家画了下面一张图,来描述这两者智慧生物。一种是基于生物性的,经过几百万年的进化而来;一种是基于IT技术,基于大数据和机器学习,通过自模 拟、自学习而来。前者更有逻辑性,更有丰富的情感,有创造力,但生命有限;后者没有很强的逻辑性,没有生物上的情感,但有很强的计算、建模和搜索能力,理 论上生命是无限的。

当然,这些事情要发生都会非常非常遥远。反正我们活着的时候是见不到了,死了也见不到,因为我们死的时候,我相信这种建立在大数据和机器学习之上的虚拟生命还不会存在。

四、结束语

我最后想说的是,我们对未来的认知,主要是基于常识和对未来的想象。根据统计,现在《纽约时报》一周的信息量比18世纪一个人一生所收到的资讯量更大, 现在18个月产生的信息比过去5000年的总和更多,现在我家一台5000元电脑的计算能力比我刚入大学时全校的计算能力更强大。科技的进步在很多的时候 总会超出我们的想象,试想如果未来我们一个人拥有的电脑设备超过现在全球现在计算能力的总和,一个人产生的数据量超过现在全球数据量的总和,甚至你的宠物 小狗产生的信息量都超过现在全球数据量的总和,世界会发生什么呢?那就取决于你的想象力了。

对于未来,你想象到什么了呢?

来源:华为IT产品解决方案

时间: 2024-10-06 18:30:42

华为内部狂转好文:有关大数据,看这一篇就够了的相关文章

从大数据看2018世界杯 —冷门迭爆,你热爱的球队回家了吗?

2018年俄罗斯世界杯作为四年一度的足球盛宴,不管是不是球迷,在这个夏天都将点燃无数人的体育竞技热情.但本届世界杯爆冷不断,一首"凉凉"刚送给了输给韩国队的日耳曼战车,大热夺冠种子队阿根廷与葡萄牙就在同一天一起再见了本届世界杯,众多球迷期待的两位足球先生梅西和C罗的相遇之战未能如愿,紧接着西班牙爆冷点球大战输给俄罗斯,巴西负给比利时--.虽冷门迭爆,但不得不说,一切皆是未知,这就是世界杯的魅力! 在此带大家从MobData大数据中解读世界杯的另一面魅力所在. 世界杯上总是不乏一球成名的

大数据学习之小白如何学大数据?(详细篇)

大数据这个话题热度一直高居不下,不仅是国家政策的扶持,也是科技顺应时代的发展.想要学习大数据,我们该怎么做呢?大数据学习路线是什么?先带大家了解一下大数据的特征以及发展方向. 大数据的三个发展方向,平台搭建/优化/运维/监控.大数据开发/设计/架构.数据分析/挖掘. 先说一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化.非结构化文本.日志.视频.图片.地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高,海量数据的处

你为什么需要大数据?看台湾企业家怎么说

企业必须思索:你为什么需要大数据? 要 做大数据,最大的挑战就是有很多未知,也需要很多投资,像红门互动就投资数据分析工具.人员,甚至是储存设备.蒐集回来的多为杂乱数据,数据杂乱则代表资 讯源不一致,所以红门互动有70%的时间都在做数据清洗,再进入分析过程做数据计算,得到结果之后,还要将数据「可视化」,变成一般人可读的数据. 新创团队要如何切入大数据领域? 得到数据之后,重复地使用它,才能创造价值.他进一步用食材.锅具和厨师来形容大数据的三种元素,三者缺一不可,才能产生价值. 食材:数据,企业往往

大数据学习:hive篇,入门学习大数据开发

大数据开发之路漫漫其修远兮,吾将上下而求索.对于很多入门学习大数据开发的小伙伴,可能第一个接触到的,是我们的大数据领域的数据仓库工具hive.在大数据生态中,hive一般作为数据仓库来使用. Hive本身是不做数据存储的,它是构建在分布式存储系统HDFS之上,我们平常看到的表数据其实本质上来说还是HDFS的文件. Hive把这些HDFS数据文件,通过元数据规则映射为数据库的表,并且可以提供SQL操作的功能.Hive总体结构比较简单,总体有三个组件:用户接口.元数据系统.驱动器.用户通过用户接口来

大数据技术之数据采集篇

[导读]数据采集是进行大数据分析的前提也是必要条件,在整个流程中占据重要地位.本文将介绍大数据三种采集形式:系统日志采集法.网络数据采集法以及其他数据采集法. (一)系统日志采集法 系统日志是记录系统中硬件.软件和系统问题的信息,同时还可以监视系统中发生的事件.用户可以通过它来检查错误发生的原因,或者寻找受到***时***者留下的痕迹.系统日志包括系统日志.应用程序日志和安全日志.(百度百科)大数据平台或者说类似于开源Hadoop平台会产生大量高价值系统日志信息,如何采集成为研究者研究热点.目前

大数据解决方案-(基础篇)

学习大数据分析与应用课程的首要任务,是先了解统计与建模方法和数据挖掘方法所呈现出来的效果,然后依次学习Excel数据处理及编程.MySQL数据库的简单操作及Hadoop的基础知识.从而为进阶.提高打好基础. 基础 统计与建模方法演示 探索性数据分析演示 常用概率分布和渐进性演示 置信区间和假设检验演示 线性回归模型演示 广义线性回归模型演示 数据挖掘方法演示 分类预测基本流程演示 数据预处理演示 分类方法演示 聚类分析演示 关联分析演示 在这里小编建了一个大数据学习交流扣扣群:251956502

从国考大数据看中国哪个省的人最爱当官

道路千万条,公务员之路最拥挤! 一个职位有成百上千人竞争的现象屡见不鲜 然而每年都有100多万勇士 敢于直面国考的惨烈 说起公考 全国那么多人 到底哪个省份的人最爱当官呢? 看数据分析就知道了 ▼ 先看下刚结束的2020年的国考大数据. 数据分析显示,2020年国考共招录24128人,有143.7万人通过资格审核,参考人数达96.5万人,竞争比高达40:1. 其中,2019年的这场国考,被称为"史上最难国考".经过2018年报考高峰后,2019年,国考突然大缩水,招考职位从2018年的

阿里巴巴大数据之路——数据模型篇

一.概述 1.什么是数据模型? 数据模型就是数据的组织和存储方法.主要关注的是从业务.数据存取和使用角度合理存储数据. 2.典型数据仓库建模方法论 ER模型 纬度模型(建模四步曲:确定业务流程->确定粒度->确定纬度->确定事实表) 二.阿里巴巴数据整合管理体系oneData 1.体系架构 核心内容包括规范定义.模型设计等! 原文地址:https://www.cnblogs.com/jiangbei/p/9390633.html

移动大数据时代最IN编程语言必读书单

移动大数据时代最IN编程语言必读书单 这是一个快速更迭,快鱼吃慢鱼的时代.从IT 时代演变成 DT 时代,再到现在的智能时代.急速革新的各种新技术.新工具.新平台,需要程序员掌握良好的编程思想和学习方法,不断学习新技术.补充新知识,才能努力跟上时代的步伐,找到自我实现的际遇.读书依然是我们获取知识的最方便和有效的途径之一.既要读经典,也要读新书,前者让你沉淀,发现正确的方法,后者让你紧跟前沿,掌握最新的技术.可你是不是担心,不能找到真正值得读的新书而浪费时间?在此,我们汇总了当下最In的编程语言