打破摩尔定律:谷歌与腾讯的下一代计算平台选择是?

(上图为腾讯服务器平台架构师、天蝎计划3.0项目经理王伟)

谷歌技术架构高级副总裁Urs Hlzle曾在2015年4月对美国媒体表示,谷歌肯定将切换到下一代计算平台,这就是基于OpenPOWER开放芯片架构的服务器。而谷歌服务器与存储系统设计高级总监、OpenPOWER联盟首届主席Gordon McKean表示,已经越来越难从现有的X86服务器中“榨取”更好的性能了。

无独有偶,与谷歌研发下一代计算平台同样重量级的是中国互联网公司的天蝎计划。在2016年6月22日OpenPOWER中国峰会上,腾讯服务器平台架构师、天蝎计划3.0项目经理王伟对外透露腾讯已经对OpenPOWER服务器做了较长时间的性能测试并对结果表示满意,OpenPOWER也积极参与了下一代天蝎3.0标准与规范研究。

除了谷歌和中国的互联网公司外,来自中国的电信公司、大型企业、服务器厂商、软件公司、系统集成商等也纷纷加入了OpenPOWER这一开放芯片架构联盟。

OpenPOWER:X86的另一种选择

(上图为IBM院士Bradley McCredie)

2013年8月6日,谷歌、IBM、Tyan、NVIDIA和Mellanox一起创立了后来被称之为OpenPOWER基金会的组织,这个组织的目的是就把IBM Power服务器芯片架构开放出来,以类似ARM开放移动芯片知识产权的方式,重新组建一个服务器芯片产业。

众所周知,OpenPOWER的目标是创建一个围绕IBM Power处理器架构的软硬件生态系统,从而提供一个替代英特尔系统方案。Power系列服务器一向是高端服务器的代表,但在互联网公司全面转向英特尔X86商用服务器的大趋势下,IBM选择从服务器制造走向芯片设计。

与英特尔至强服务器系列芯片不同,IBM Power是基于高端RISC芯片架构,天然支持数据分析等高性能计算,具有系统更紧凑、效率更高、能耗更低、计算能力更强等特点。目前IBM Power芯片系列已经到Power 8版本,将于2017年推出Power 9版本,OpenPOWER则是与之相对应的开源版本。

OpenPOWER芯片的独特之处在于提供了CAPI、FPGA和NVLink连接三大特性。CAPI即为一致性加速处理器接口总线协议,与传统X86架构下的PCI总线不同,CAPI让外部硬件设备可以直接访问内存而无需通过CPU中转,这样就能提升操作系统、中间件和应用软件的运行速度与性能。更为重要的是,它让CPU与FPGA芯片更优化地协同工作。

说到FPGA,不得不提到2015年6月1日英特尔宣布以167亿美元价格收购全球第二大FPGA生产厂商Altera。FPGA是可编程的芯片,FPGA与CPU及GPU联动有助于打破摩尔定律的限制,以低功耗达到更高的计算性能,英特尔也意识到了这一点,正把Altera的FPGA与至强处理器结合,向大客户提供高度定制化的芯片。而FPGA全球第一大厂商Xilinx则是OpenPOWER联盟成员,Power 8及之后的架构则提供了独有的面向FPGA优化的CAPI。

NVLink是下一代IBM Power 9的最新特性,是IBM与NVDIA等开发的CPU与GPU以及GPU与GPU之间高速大带宽直连通讯的互连协议。为什么需要CPU与GPU之间的高速通讯?NVIDIA软件开发技术总监赖俊杰表示,在人工神经元网络等的人工智能计算中,需要在多个计算芯片之间大量数据通信,这就是NVLink的价值。IBM院士Bradley McCredie介绍说,NVLink可将CPU与GPU的数据通讯从目前的16GB/s提升到40GB/s。

OpenPOWER开放架构为芯片“玩家”开放了从CPU内存到硬件主板再到与系统软件之间的多重核心技术,让“玩家”们可以根据各自的需求定制化自己的服务器芯片。然而,这还不是OpenPOWER最具吸引力的地方。Bradley介绍说,OpenPOWER最高端芯片的价格仅是英特尔至强最高端芯片E7系列价格的1/3还低,但性能却优于E7系列20%~30%,综合性价比是E7系列的3倍,而且OpenPOWER也提供包括L/LC等系列在内的中低端服务器芯片。

作为OpenPOWER联盟的中国首个成员,苏州中晟宏芯信息科技有限公司战略委员会主任卢义远表示,实际测试表明20台Power服务器相当5倍X86服务器即100台服务器的性能。相比之下,节约的占地面积以及功耗都非常可观。随着大数据与云计算爆发式的增长,卢义远认为“不超过5年大家就可以看到X86承担不了这么大规模的云计算。”

谷歌的选择

(上图为谷歌数据中心)

2016年4月,谷歌硬件工程主管兼OpenPOWER基金会总监Maire Mahony在谷歌云平台博客中发表文章称,谷歌与RackSpace共同开发了基于IBM Power 9的开放服务器架构,并将向由Facebook等发起的OCP开源硬件社区提交,从而进入下一代开放服务器设计标准。

Maire称谷歌对于计算能力与计算资源的需求是“无情的”,而且绝不会减速。在2008年的时候,谷歌找到了1万亿个网址,如今这个数字是60万亿。为了应对这个巨大的挑战,谷歌硬件工程要确保能够处理异构的计算指令集(即不同的CPU芯片),从而获得最佳性价比。

成立于1998年的谷歌在全球运维着上千万台服务器,基于摩尔定律的CPU芯片显然难以满足这样庞大规模服务器群的需求。摩尔定律总有上限,到了上限以后怎么办,这是谷歌工程师从很早以前就开始思考的问题,这也是谷歌会成为OpenPOWER基金会创始成员的原因。

Power系列服务器以更小的体积提供了更高的性能,这是小型机处理器架构服务器天然优于英特尔处理器架构的地方。Hlzle称经常被问及谷歌是否考虑切换到Power架构服务器,而“答案是肯定的”。因为即使是对于某一代产品来说,性价比的提升也是接近20%。

谷歌现在可能是英特尔服务器芯片最大的买家,但英特尔至强服务器芯片设计并不对外开放,如果谷歌要从CPU开始向上控制和优化整个硬件工程,就必须要有自己的服务器芯片。IBM选择开放自己的Power服务器芯片技术,这恰好迎合了谷歌的需求。要知道,谷歌曾研发了全球性能最强的交换机,原因是因为市场已有的交换机都不能满足谷歌的实际需求。

现在,谷歌已经在自己的数据中心内部运行了基于Power 8架构的定制化服务器,谷歌的开发人员可以根据自己的需求,在这些服务器上部署关键型应用。尽管谷歌没有对外透露这些服务器的数量以及在上面跑的具体应用,但谷歌对OpenPOWER架构芯片的态度是“All In”。

而且,谷歌还进一步与托管云及云计算技术厂商RackSpace一起设计了基于Power 9的下一代服务器架构,Power 9的设计预计于2017年正式推出。过去,云数据中心被认为是英特尔服务器芯片的天下,而RackSpace转投OpenPOWER阵营,对英特尔来说将有深远影响。

腾讯的选择

(上图为中国开放数据中心发展历程)

在国外有谷歌,在国内就是BAT。在国外有Facebook等组建的开源硬件项目OCP,在国内就有BAT等组建的天蝎计划(后更名为ODCC中国开放数据中心委员会)。

ODCC的前身天蝎计划是2011年由BAT共同组建的开源硬件服务器的项目,致力于为中国互联网企业提供开放开源的数据中心服务器,后来随着中国电信、中国移动、中国联通以及中国通信研究院的加入,在2014年天蝎计划正式更名为ODCC开放数据中心委员会,希望为中国全行业提供开源开放的服务器解决方案。

王伟介绍说,截止目前中国大约有23万台天蝎服务器已经落地部署,为用户节约了4-5亿元人民币,同时减少了7.8万吨大气碳排放。2015年,天蝎服务器新部署了3000多个机柜接近10万多台服务器,占中国服务器市场出货量的5%,2016年预计新增4000机柜接近13万台服务,2017年将接近12%的市场占比。

天蝎整机柜能给用户带来怎样的收益?在TCO总体拥有成本方面,能够给用户带来降低10%-20%的收益,同时在故障率方面能大幅降低40%左右,而部署效率上能提高10倍以上。如今,天蝎整机柜服务器不仅面向互联网行业用户,还已经在电信运营商落地应用,未来在面向政府、企业、高性能计算、高校以及金融行业也可以找到更好的应用场景。

从2011年到如今,天蝎整机柜已经经历了2.5代的发展。在天蝎1.0的阶段,对服务器硬件架构做了一次重构,把服务器的供电子系统和散热子系统解耦,形成机柜级别的统一供电和统一散热。天蝎2.0对服务器全部子系统做了更深入的标准化和规范化,包括机架子系统、供电子系统、散热子系统、管理子系统以及服务器的节点子系统等。

2015年ODCC启动了天蝎3.0的项目研究,目标是希望进一步提高服务器资源的利用率来降低数据中心的能耗。而触发天蝎3.0研究的原因主要有两个:一是服务器内部各个子系统部件的利用率不一样,造成了不同工作负载下存在部件子系统的资源浪费;二是服务器子系统里各个部件的升级换代周期不一样,造成了服务器研发成本、运维成本和交付成本的增加。

天蝎3.0的目标需要对服务器硬件内部更高的可视化与更细的调整力度,这就需要类似OpenPOWER的开放硬件架构。IBM与OpenPOWER联盟在2015年加入了ODCC联盟,随后也积极参与了天蝎2.5的标准制定,设计和开源了一款天蝎服务器,可提供高达1TB的内存,内存性能相当于传统中高端服务器内存性能的两倍,而OpenPOWER芯片的磁盘IO能力也能将硬盘和硬盘控制性能发挥到最大化。目前,IBM正参与天蝎3.0的技术研究和规范的制定。

据王伟介绍,腾讯现在有1000PB的数据,每天还在产生接近1.8PB的用户数据和系统日志在产生,每天有5.6万亿条进入腾讯系统的消息需要被处理和分析。因此,腾讯需要一个大规模、高性能的大数据处理平台来处理这些数据,为用户创造更多的价值。

腾讯已经进行了长时间的OpenPOWER服务器性能测试和评估,认为OpenPOWER的多核多线程以及高内存带宽等特性非常适合大数据等应用场景。此外,OpenPOWER架构可以很好地发挥FPGA与GPU的联动性能,在人工智能领域有出色的性能表现。

ODCC的成员与谷歌的选择非常类似,无论是从突破摩尔定律天花板,还是摆脱英特尔对CPU级的掌控,开源开放的OpenPOWER芯片架构都是更好的选择。IBM OpenPOWER联盟总经理Ken King进一步指出,英特尔芯片越来越把计算集中到CPU本身处理,这将产生更多的瓶颈。OpenPOWER则把计算分散到内存、FPGA、网络等多个环节,“把计算资源推向数据,而不是把数据推向计算资源”,这更符合大数据实时分析的需求。

中国军团借力上位

(上图为浪潮电子副总裁李金)

自2013年8月成立OpenPOWER基金会后,也就是IBM公开Power架构至今,已经接近三年的时间。对于这样一个新的芯片生态,到现在已经吸纳了全球24个国家的200多家成员,推出了80多种产品和解决方案,支持POWER+Linux系统的ISV已超过2300家。OpenPOWER生态正在为数据中心带来一场新的变革。

而OpenPOWER自推出之日起,就受到了中国产业界的极大关注。尤其是在国产化大趋势下,服务器芯片国产化是国内技术公司的挑战,而IBM开放Power芯片则无疑是利好消息。IBM大中华区科技战略合作总经理姜锡岫表示,OpenPOWER在国内有30多家成员,涉及芯片、主板、固件、服务器、操作系统、中间件、云计算、大数据及应用等整个产业链的各个环节。

在2016 OpenPOWER中国峰会上,浪潮作为国内服务器行业的重量级厂商也宣布推出首款OpenPOWER服务器。浪潮电子副总裁李金说,在大数据、认知、云计算、互联网应用等新兴的工作负载上,看到OpenPOWER架构有着独特的性能和技术优势。浪潮致力于下一代数据中心的研究,结合了OpenPOWER服务器的多架构数据中心能更好的满足用户的各类需求。

中国移动福建公司大数据中心经理谢志崇在2016 OpenPOWER中国峰会介绍说,福建移动公司在5年之前就开始尝试探索使用Linux On Power技术服务器,现已经进入大规模应用,现有200台节点服务器在实际的生产环境当中运行。从电信运营商的角度来说,一是大规模的数据和用户数量要求非常强的处理性能,二是需要有可靠稳定的系统来保障业务连续性和系统可用性,基于这两点综合测评福建移动选择了OpenPOWER。

当然,OpenPOWER在中国的推广也不是一帆风顺。苏州中太服务器有限公司是国内最早推出基于OpenPOWER开放技术自主研发国产服务器的企业。2014年苏州中太率先加入OpenPOWER基金会,2015年推出国内首款OpenPOWER架构的服务器产品——RedPower。

苏州中太董事长王雪松表示,过去一年用户的反馈表明,RedPower在追求极致性能和大数据应用领域,其优势相较于x86来说尤为凸显。RedPower能突破x86无法突破的性能瓶颈,而当面向大数据应用订单数量达到一定规模(几百台以上)时,RedPower累积的性价比极具吸引力。

对于OpenPOWER这样一个不到三年的新生态,王雪松进一步表示,OpenPOWER走的是一条不同于x86的路,这就要求用户和服务器厂商必须迅速共享和吸收一套全新的知识体系。尤其是目前市面上有大量的应用系统完全是以x86为蓝本优化的,如果用户在购买OpenPOWER产品后并未进行定制优化的话,就无法最大程度发挥其性能,“经过我们的优化后,机器性能达到了优化前的10倍以上。”

现今,中国服务器市场竞争已经从硬件主导向应用主导过渡,不再单纯是单一产品的竞争,而是全方位解决方案的生态竞争。随着过去三年,越来越多的中国厂商和企业用户加入OpenPOWER阵营,接下来就是软件系统和应用大发展的三年。考虑到中国有全球最大的互联网公司和电信公司,OpenPOWER生态有可能在中国最先成熟。

中石化金陵分公司在“十二五”期间已经把智能制造搬到了基于OpenPOWER的混合云之上,“十三五”还准备利用大数据、云计算等技术全面提升金陵石化“两化”融合的水平,包括企业感知、协同、分析能力以及数字化、集成化、模型化、自动化、智能化等方面。这些都是OpenPOWER能够大显身手的机会。

在不远的未来,对于计算性能、数据交换与通讯能力要求更高的区块链、人工智能、虚拟现实、物联网实时数据分析等等,将是激发OpenPOWER生态大发展的杀手级应用。

OpenPOWER联盟和基金会的出现恰恰赶了上摩尔定律即将见顶、中国的国产化浪潮、互联网公司进入下一个阶段、颠覆性新技术即将规模化发展等几大趋势。所谓,风口上,想不飞也难。(文/宁川)

【更多精彩内容 尽在《云科技时代》微信 微信号:CloudTechTime】

时间: 2024-11-04 18:13:40

打破摩尔定律:谷歌与腾讯的下一代计算平台选择是?的相关文章

腾讯云推出物联网边缘计算平台,加速物联网走进“边云协同”时代

8月28日,腾讯云重磅推出物联网边缘计算平台,该平台的推出将彻底打通物联网应用落地的最后一公里,让云端强大的计算能力快速延伸到用户的边缘,数以亿计的物联网设备将可以随时随地畅享云计算带来的海量数据处理能力和前沿AI技术. 这是腾讯云基于丰富的技术经验和案例实战,对物联网解决方案布局的又一次跨越. 作为一种边缘计算解决方案,腾讯云物联网边缘计算平台要解决的是物联网落地“远水救不了近火”的难题. 腾讯云物联网边缘计算产品负责人戴国超指出,边缘计算可以把云中心的计算,快速交付到离用户或者是离数据离物最

提供一个谷歌(腾讯)、百度地图纠偏数据库

转载请说明出处:http://blog.csdn.net/cywosp/article/details/27095723 <黑天鹅--如何应对不可预知的未来> 作者:纳西姆?尼古拉斯?塔勒布 关于黑天鹅 在发现澳大利亚黑天鹅之前,所有欧洲人都确信天鹅全部都是白色的,人们在经过上百万次的确定性观察白天鹅之后得到了这一结论,而且一直延续了上千年,直到黑天鹅的出现,从而将这一结论完全打破.通过黑白天鹅的现象说明我们通过观察或经验获得的知识具有严重的局限性和脆弱性,仅仅一次的完全不同的发现就足以颠覆根

无意中发现了谷歌、腾讯、高德地图纠偏算法

大家知道,天朝的地图都是加偏的,也就是GPS设备接收到的坐标和电子地图坐标是不一样的,有一定的偏移,如果直接把GPS坐标显示到电子地图上,有几百米的误差,必须把GPS坐标加上一定的偏移再显示到电子地图上,才和实际相符,理论上,每种地图偏移量不一样的,且都不是线性的,供应商提供在线的接口,把GPS坐标转换成地图坐标,但算法是保密的,我们可以自己创建纠偏库(参见百度谷歌等地图纠偏库),但部分地方不使用数据库,也不适合网上调用,最合适的办法就是通过算法直接计算,我在网上无意看到了用java写的谷歌地图

腾讯云高级研究员张雨春:腾讯云城市计算助力行业数字化升级

10月28日FMI 2018人工智能与大数据高峰论坛深圳场圆满落幕,腾讯云高级研究员张雨春从腾讯云城市计算助力行业数字化升级方向进行了精彩的分享. 腾讯云高级研究员张雨春 以下是张雨春演讲内容,飞马网根据现场速记进行了不改变原意的编辑(有删减): 张雨春:大家好!很高兴作为最后一位演讲嘉宾参加这次峰会.今天我给大家带来的分享是<腾讯云城市计算助力行业数字化升级>,城市计算的概念最近几年炒得很热,BAT三家先后提出了AI城市.智慧城市.城市大脑等解决方案.今年7月份,深圳市政府提出了建设新型智慧

微软讲座视频: 下一代vNext平台:ASP.NET vNext与MVC6,WebAPI 3.0 新特性 下载

 微软下一代平台vNext: .NET 5.0.ASP.NET vNext与MVC6,WebAPI 3.0 新特性 录像视频下载 http://t.cn/RPYhcuG  微软与开源实战训练营QQ群 203822816 微软MSDN俱乐部QQ群 29754721, 微软MSDN特邀讲师:徐雷  Frank Xu Lei倾力打造!新浪微博:http://weibo.com/frankxulei  @@老徐FrankXuLei 系统讲解NET vNext 新特性ASP.NET vNext新特性,

微软讲座视频: 微软下一代vNext平台:ASP.NET vNext与MVC6,WebAPI 3.0 新特性

微软下一代平台vNext: .NET 5.0.ASP.NET vNext与MVC6,WebAPI 3.0 新特性 录像视频下载 http://t.cn/RPYhcuG  微软与开源实战训练营QQ群 203822816 微软MSDN俱乐部QQ群 29754721, 微软MSDN特邀讲师:徐雷  Frank Xu Lei倾力打造!新浪微博:http://weibo.com/frankxulei  @@老徐FrankXuLei 讲课系统NET vNext 新特性ASP.NET vNext新特性, MV

探秘腾讯Android手机游戏平台之不安装游戏APK直接启动法

前言相信这样一个问题,大家都不会陌生,“有什么的方法可以使Android的程序APK不用安装,而能够直接启动”.发现最后的结局都是不能实现这个美好的愿望,而腾讯Android手机游戏平台却又能实现这个功能,下载的连连看,五子棋都没有安装过程,但是都能直接运行,这其中到底有什么“玄机”呢,也有热心童鞋问过我这个问题,本文就为大家来揭开这个谜团.实践我实现了一个小小的Demo,麻雀虽小五脏俱全,为了突出原理,我就尽量简化了程序,通过这个实例来让大家明白后台的工作原理.下载demo的apk程序apks

下一代云计算平台Apache Mesos定制自己的PaaS(应用发布+负载均衡+服务发现)

书接上文<下一代云计算平台Apache Mesos之使用marathon发布应用> 作为一个简单的PaaS(平台即服务),应该具备发布应用,调整应用个数,重启应用,暂停应用(marathon提供)以及负载均衡和服务发现的功能.本文主要演示负载均衡和服务发现. 1 发布docker程序到marathon 1.1 发布docker镜像到marathon平台 1.1.1 编写Docker.json { "container": { "type": "

讯飞移动广告平台正式上线啦~~

10月22日,讯飞移动广告平台(http://www.xfyun.cn)正式上线了,讯飞移动广告平台依托讯飞语音云强大的语音语义交互.云计算.大数据处理.服务器负载集群等能力,凭借40000多合作伙伴和超过5亿终端用户的资源积累,以及日均1亿+的广告请求,为移动开发者提供稳健变现的广告服务. 讯飞移动广告平台聚焦移动广告聚合优化,与多家优质移动广告平台.DSP平台以及广告交易平台合作,通过先进的收入优化算法和简单易用的管理界面,帮助开发者快速实现应用变现,大幅提高移动广告收入. 新上线的版本已具