用七年时间造出的阿里云,如今三句话告诉你是什么

马云在2016年10月杭州云栖大会的主题演讲中只字未提“阿里云”,但这并不说明阿里云不重要,而是在某种意义上说明在马云的心里,阿里云“从0到1”的阶段已经完成了。

在10月13日杭州云栖大会开幕当天,马云发表了就上一财年致股东信,信中提及阿里云承载了中国35%的网站并为之提供云计算和大数据的服务,而截至2016年3月31日的阿里财报显示阿里云拥有超过230万用户,其中云计算付费用户达50万。

从2009年2月写下阿里云的第一段代码开始,阿里云上上下下的负责人们就一直在试图解释阿里云到底是什么。终于在7年后的云栖大会上,现任阿里云首席架构师唐洪与阿里云资深技术总监李津两个人的演讲PPT里,用密密麻麻的图表清晰地解析了阿里云的逻辑。

然而,关于阿里云有最根本的三句话,却来自阿里云的创始人王坚于今年10月出版的个人著作《在线》一书。

三句话道破阿里云的天机

王坚于2008年9月加入阿里任阿里巴巴集团首席架构师,2009年9月创建阿里云计算公司并任总裁,领导团队自主研发了大规模分布式计算系统“飞天”(也是阿里云的核心),建立了互联网规模的通用计算平台,完成了云计算公共服务的商业化。2012年,王坚任阿里巴巴集团首席技术官,现为阿里巴巴集团技术委员会主席。

《在线》一书是王坚对于过去8年自主技术创新道路的反思与总结。从书中摘出了三句话,从根本上说清了阿里云的本质以及过去与未来:

第一句话:从某种意义上来说,“飞天”就是一个操作系统,操作系统最重要的功能就是资源管理。“飞天”的底层是数据中心,有成千上万台通用服务器,每台服务器都有CPU(中央处理器)、内存、存储,相互之间用以太网进行连接,这套系统简单说就是把所有资源抽象成一台计算机,并通过互联网提供计算服务。

第二句话:这样的底层架构与亚马逊差别很大。亚马逊对外提供的每一个服务都会直接对应一个或多个物理集群,比如A集群对于S3(亚马逊云存储服务),B集群对于EC2(亚马逊云弹性计算服务),它的功能和系统计算是垂直的。而阿里云所有的服务对应的都是同一个系统内核、同一套分布式文件系统。也就是说,无论对象存储、弹性计算、邮件、搜索等,都共用同一个底层。除阿里云外,世界上只有谷歌能够做到这一点。

第三句话:“飞天”系统是一个规模很大的有机整体。规模很大带来的最大挑战在于这台“超级计算机”每天都可能发生故障——硬盘会坏、风扇会坏、内存会坏,“可能自己买一台笔记本电脑用了5年之后依旧完好无损,但是在成千上万台服务器的‘飞天’集群里面,硬件故障时时刻刻都会发生。”

把这三段话再精炼总结一下:如果把全世界的计算资源看成是一台庞大的虚拟计算机的话,阿里云的核心“飞天”就是这台虚拟计算机的操作系统,而“内存”、“硬盘”、“显卡”等都是由巨大的通用服务器集群组成。阿里云除了核心“飞天”操作系统外,还向上提供云服务版本的中间件、安全、文件系统、数据库以及面向应用的通用API等高级服务。用户使用阿里云的方法却很简单,只需要通用浏览器或通用API简单调用即可。除了谷歌外,微软云也是同样的思路。

阿里云就是这样一个永远在线的软硬一体的虚拟计算机,这个虚拟计算机庞大到了每个人都生活在其中却感觉不到它的存在——当然,这是阿里云的终极梦想,也是亚马逊云、谷歌云、微软云等三大巨头的终极梦想。现在,阿里云正与这三朵国际云展开终极竞争。

百万级服务器、单集群1万台的有机体

关于阿里云的三句话中,最后一句说的是阿里云“飞天”系统已经是一个规模很大的有机整体。这个有机体目前到底有多大?综合本次2016杭州云栖大会阿里云提供的各种资料,可以初步描绘出这个有机体的规模:

百万台级服务器的连接能力,单集群可达1万台的规模,10万个进程达毫秒级响应;十亿级文件数,EB级别存储空间;全球15个数据中心区域;“飞天”全球用户数达到230万,遍布全球200多个国家和地区;提供面向22个行业的108个解决方案。

简单的对比,亚马逊云与微软云目前都是百万台服务器级别的规模,亚马逊云在全球有17个数据中心区域、35个可用区域(AZ),微软云有34个数据中心区域,而谷歌虽然自身达千万台服务器级别但只有一小部分对外提供公有云服务。因此,按阿里云资深技术总监李津在本届杭州云栖大会上的说法,阿里云与亚马逊云已经没有多大的差距。

(上图为飞天系统与PC系统的逻辑对比)

所以,在过去的7年时间里,阿里云一直在发布这个庞大体系的不同组件,并且在把不同的组件连接起来形成一个有机体,当这个有机体大到一定程度的时候,它其实在某种程度上就具有了“生命”。因为传统操作系统在升级硬件的时候需要重启系统,而阿里云在升级飞天的时候却不能重启。这个很好理解,阿里云已经与社会经济息息相连,必须7*24小时不间断在线。

这样的一个有“生命”的有机是怎么自我调节、自我平衡、部分组织自我重生的呢?唐洪介绍了阿里云的生命机理,这就是阿里云的自动化运维系统“天基”。在“天基”看来,系统里每一台机器都无时无刻地处在部署、升级、迁移以及各个状态的转换中,“天基”在整个系统运行中精准地控制每个进程、每个组件的状态,从而控制每个系统的状态。

“天基”采用了一个面向恢复的计算模型。每台由“天基”管理的机器上会定期向“天基”发送自己的状态,而“天基”还维护一个系统预期的状态,“天基”会定期地比较预期状态和当前状态,根据其差别来制定出详细的执行计划并下发到“天基”的执行AGENT机器上,通过这样的过程迭代使得整个系统的状态逐步逼近到预期状态。

而在离线应用与在线应用的系统资源混合管理方面,阿里云会将离线应用和在线应用放在同一个集群上,当在线应用比较空闲时就将资源分配调度离线应用,当在线应用的负载比较高时就将资源从离线应用“抢占”过来。这样既可以保证整个系统资源的利用率,也可以确保在线服务的质量。通过这两个策略,可以将集群中日常资源的使用率从5%提升至54%、将集群峰值的利用率从22%提升至64%。

以上只是从大方面来看阿里云的“生命机制”,而作为一朵从无到有、从小到大的新生云,为了保证用户业务的不间断以及阿里云的组织更新,阿里云甚至创造了全球首例整体机房带业务热搬迁,也就是整个机房带着用户不停顿的业务搬迁到新址,形象的说法就是开着汽车换轮子、开着飞机换引擎。

然而,一旦阿里云的所有必要组件全部都对外发布出来而且已经彼此互连成合体的话,这个有机整体就可以脱离人工的管理,而由机器自治。李津介绍说,目前已经把深度学习等人工智能算法用于阿里云基础设施的自我管理,由机器自己探测并自动修复故障。

与社会化应用协同进化的逻辑

回观过去7年阿里云的成长,还有一个重要的逻辑,就是不断用真实世界的应用来刺激阿里云的生长。

阿里云的早期阶段,由于大量用户把自己的应用架设到阿里云上,但早期的阿里云因为经常宕机而导致一片骂声,可以说阿里云就是被“炮轰”长大的,甚至有一个博客网站专门记录阿里云的各种问题。《在线》这本书里也收录了不少“炮轰”阿里云的报道,包括阿里集团内部也一度因为是否要把核心应用搬到阿里云上而爆发激烈争吵。

当然,今天的阿里云依然会出现问题,但出现问题的几率已经大幅降低。而阿里的核心应用,甚至双11这样的高难度挑战,也都逐渐迁移到了阿里云上。正是因为有了现实应用的试验与实验,以及真实用户和真实场景的不断反馈,才能让阿里云在中国这样一个缺乏操作系统、数据库和中间件等高级计算技术人才的地方,从无到小、从小到大。

所以,一旦当阿里云达到一定规模,产生了巨大的规模经济效益后,阿里云也不断通过降低和开源的方式回馈社会。本届杭州云栖大会上,阿里云宣布中国区云产品全线下调,包括云服务器ECS、云数据库RDS、云存储OSS及云安全产品等购买时间越长折扣越高,两年七折、三年五折。阿里云表示,此次降价空间来自于规模效应和今年飞天操作系统的大规模技术升级。阿里巴巴集团2016财报显示,过去一年里阿里云曾17次下调价格。

在开源方面,本次杭州云栖大会上AliSQL正式开放了源代码的下载。AliSQL是阿里巴巴基于开源数据库MySQL官方版本的一个分支,应用于阿里巴巴集团业务以及阿里云数据库服务,目前由阿里云数据库团队维护。阿里云在AliSQL上进行了300多个改进,比如针对电商秒杀、物联网大数据压缩、金融数据安全等场景提供个性化解决方案。而阿里巴巴是国内开源界的最大贡献者之一,已经对开源社区贡献了115项开源技术。

随着阿里云在技术上的成熟,现有的阿里内部应用以及社会上的应用已经不能满足进一步“刺激”阿里云的未来成长的作用。因此,阿里云开始选用社会化的极限挑战,杭州“城市大脑”项目就是其中之一。“城市大脑”主要是把人工智能用于城市治理,成为整个城市的人工智能中枢,让城市能够自我调节、与人类更好的互动,交通道路优化与管理是第一个挑战的课题。

“城市大脑”由五大系统组成——超大规模计算平台、数据采集系统、数据交换中心、开放算法平台、数据应用平台。城市大脑计算平台采用飞天操作系统,杭州“城市大脑”涉及的数据量巨大,仅视频摄像头就有5万多路。阿里云的人工智能引擎ET还为“城市大脑”其它四大系统提供人工智能内核。

2016年3月开始,杭州交警、城管、建委等11个政府部门和西湖区,以及阿里巴巴、华三通信、富士康等13家企业的上百名人员,聚集在云栖小镇进行研发。9月,在杭州萧山区部分路段的初步试验中,城市大脑通过智能调节红绿灯,车辆通行速度最高提升了11%。

除了用人工智能优化和管理城市外,阿里云还在着力解决全社会物流挑战。菜鸟网络CTO王文彬指出,未来物流行业的竞争力已经走出单纯依靠规模和价格的竞争,技术竞争将成为关键,物流云应该成为行业的基础设施。

根据预测,未来的几年内中国日均包裹量很快突破1个亿,无法再依靠传统的人力劳动模式去送递包括,必须使用物流云来保证物流网络高效运转。2015年底,菜鸟网络已经与阿里云合作推出了中国首个物流云平台菜鸟物流云。2016年10月14日,双方再度联合宣布推出物流加速上云行动“鲲鹏计划”,加速物流云的应用。

正是这些终极社会挑战,“刺激”着阿里云更好的内向与外向生长。对内,阿里云与英特尔合作了深度定制CPU的云服务器,与AMD合作了GPU集群公共云,通过对芯片底层的深度优化来提升阿里云的技术实力。对外,阿里云也加强了与云生态合作的广度,通过提供一站式开发平台、通用API、数据服务市场等提升云上开发者、独立软件开发商的生意机会。

目前阿里云上已经出现了单个ISV的年营收过千万人民币水平,李津则希望能在不远的将来出现过亿元营收水平的软件企业。而现在正是企业级软件与服务创业的好机会,由于阿里云的成熟和230万使用者,再加上淘宝与天猫上数以亿计的活跃商户,任何SaaS软件都有机会触达这些潜在小企业用户,因此在未来很有可能出现中国自己的企业级软件巨头。

阿里云总裁胡晓明在2016杭州云栖大会上的演讲主题是:“计算,探索未知的价值。”当云计算成为了一个有机整体的时候,它就脱离了人的想象和控制而自由发展,虽然前面的挑战未知,却也海阔天空。马云在2016杭州云栖大会音乐节上,唱的正是这首《海阔天空》。(文/宁川,微信号:CloudTechTime)

时间: 2024-08-02 06:57:47

用七年时间造出的阿里云,如今三句话告诉你是什么的相关文章

阿里云升级人工智能战略,用大数据AI备战新七年大考

"拥有了数据的积累,机器将替代人类的智商,我们判断人工智能的时代已经到来."这是阿里云总裁胡晓明在2016年8月10日举办的阿里云栖大会·北京峰会上对外表达的观点,他说:"我们认为人类一定会进入数据时代,我们认为人类一定会进入到人工智能的时代." 2016年,阿里云正在跨越七年之痒.2009年2月,飞天正式写下第一行代码,由此拉开了阿里云的历史.七年后,德意志银行2016年4月的研究报告指出,在中国云计算市场,阿里的云计算业务规模是第二名腾讯的10倍.阿里云进入全球

选择阿里云数据库HBase版十大理由

根据Gartner的预计,全球非关系型数据库(NoSQL)在2020~2022预计保持在30%左右高速增长,远高于数据库整体市场. 阿里云数据库HBase版也是踏着技术发展的节奏,伴随着NoSQL和大数据技术的兴起和发展,从2010年开始研究和发展.时光荏苒,日月如梭,转眼九年时间,在阿里云上直接开放提供服务也有1年多时间,并在去年的12月份全新发布X-Pack,将单一的HBase演进到一个完整的数据处理平台的能力.我们注意到还有很多同学和客户不清楚HBase X-Pack是什么,什么场景下合适

王文彬:阿里云的下一步

阿里云的下一步 在阿里巴巴上市之前的静默期,阿里云却有些不太“安静”. 三次降价,牵手浪潮,开放Open Search服务,发布大数据工具……最近半年,阿里云业务布局的节奏突然加快,8月19日更是发布了云生态共建战略“云合计划”,该计划拟招募1万家云服务商,为企业.政府等用户提供一站式云服务,正式吹响了行业由IT时代向DT时代迁移的冲锋号角. 从2009年阿里云团队写下第一行代码开始,5年时间阿里云成长为国内公有云市场的绝对领导者.阿里巴巴2013年的财报显示,来自云计算和互联网基础设施的收入为

阿里云MVP:开发者的超能力,用技术创造更好世界

2019年3月,第8期阿里云MVP(最有价值专家)完成终审,截至目前,全球已有27个国家和地区.近500位云计算专家和优秀开发者成为阿里云MVP.阿里云MVP是阿里云授予中国乃至全球行业数字化转型技术实践领军者的称号,他们懂技术.爱分享,愿意赋能更多开发者,让技术普惠更多企业.在他们的身上,你能看到这个时×××发者激动人心的创新创造,更能看到站在各行各业技术前沿的实践者们,努力建设一个更美好的数字中国. 数字转型:技术让生活更美好 2018年12月28日,25岁的黄胜蓝接到了阿里云MVP认证通过

阿里云的高效云盘真的不高效

前段时间发现在阿里云ECS搭建mysql和本地mysql同样的查询 发现读取性能远远不如本地机械磁盘 于是今天做了一个阿里云高效云盘的读写和本地磁盘读写性能对比 阿里云高效云盘读取效率 [email protected]:~# hdparm -tT /dev/vda1 /dev/vda1: Timing cached reads: 14732 MB in 2.00 seconds = 7380.98 MB/sec Timing buffered disk reads: 410 MB in 3.0

Gartner 容器报告:阿里云与 AWS 并列第一,领先微软、谷歌

近日,国际知名调研机构 Gartner 发布 2020 年容器公有云竞争格局报告,阿里云再度成为国内唯一入选厂商.Gartner 报告显示,阿里云容器服务在中国市场表现强劲,产品形态丰富,在如 Serverless 容器.服务网格.安全沙箱容器.混合云和边缘等领域,具备良好的技术发展策略. 2020 年 3 月,Gartner 第二次公开<竞争格局:公共云容器服务>年度调研报告,报告针对 Serverless Kubernetes.服务网格.容器镜像等十项功能维度进行对比,阿里云和 AWS 覆

云服务器:西部数码VS阿里云

公司因为业务的需要,申请了两个云服务器.一个是西部数码的,一个是阿里云香港的.其中西部数码的配置高一些,一年4500元左右:香港的则便宜些,一年2200左右.因为备案问题,主业务放在成都的西部数码服务器上. 长期运行下来,发现西部数码远远不如阿里云.ping得话,网络三分钟内必掉一次.ftp一个目录一般都做不完就停在那里了(也是网络问题).而阿里云服务器虽然远在香港,配置低一半,但各方面都很满意. 西部数码的最大优势,恐怕就是卖的人比较多(我们也是被开发商忽悠了),想来可能是差价比较诱人吧. 明

IIs 常见问题,阿里云配置,发布网站

iis 常见问题  阿里云配置 三. 发布网站 发布的时候 ,调试模式改为 release,选择一下选项 选项:发布前删除所有现有文件,是指发布时候先删除发布文件中所有文件 原文地址:https://www.cnblogs.com/haigui-zx/p/9829067.html

阿里云 VS 腾讯云 VS 华为云 VS 七牛云 VS Ucloud 国内五大云服务商云主机评测报告

前言 对于所有的公有云服务商来说,云主机是非常基础且重要的业务.那么在高性能云计算方面,作为互联网巨头的阿里云.腾讯云以及新兴云计算企业的代表华为云.七牛云和UCloud又有怎样的表现呢?最近,我们选择了阿里云.腾讯云.华为云.七牛云和UCloud这几家主流云服务商的云主机产品进行评测. 主机选取 虽然任意一家云服务商都无法保证同一系列所有的机器性能都一致,但通过样本的检测我们还是能大致了解各家云服务商的实力.本次选择的云主机配置为4核16G.为了较为公平的比较各家云服务商的主机性能,我们尽量选