腾讯TEG架构平台部总监冯亮:游戏内部云底层技术揭秘

摘要:在腾讯内部游戏云一直是最大一块,所以最棘手的问题、最新的技术、最高效的运营体系都会最先出现在游戏云上。在今年第二届游戏运营技术论坛上,腾讯TEG架构平台部总监冯亮为大家揭秘了游戏内部云底层技术。

在腾讯内部游戏云一直是最大的一块,所以最棘手的问题、最新的技术、最高效的运营体系都会最先出现在游戏云上。在今年第二届的游戏运营技术论坛上,腾讯TEG架构平台部系统研发中心总监冯亮为大家揭秘了游戏内部云底层技术。冯亮主要负责腾讯内部使用的Linux发行版/内核和虚拟化平台,致力于打造腾讯内部高效、稳定的IaaS平台。

腾讯TEG架构平台部系统研发中心总监冯亮

游戏内部云底层的特点和挑战

腾讯内部游戏云是最大的一块,比重达到百分之七八十,矛盾点基本上全都是针对于游戏云而产生的,因此,腾讯内部游戏云面临的六大问题:

  • 设备量多:腾讯内部游戏云占到设备总数的70%,包括物理机的数目以及母/子机的数目。设备多是量变产生质变的过程,包括运营体系、运营能力、整体故障处理、性能都会受到挑战。
  • 游戏上下架频繁:开服、合服是游戏的最常规运营方式,常规动作一定要自动化、高效率化,这样运营效率才能得到保障。
  • 利用率波动:利用率指的是设备的CPU和网卡这两大利用率,利用率本质上是由用户推动的,玩家不可能7X24小时不间断游戏,玩家休息时机器也应该休息。
  • 可用性高:包括子/母机的可用性以及基础设施的可用性。如果可用率低的话,意味着服务的不同时间就比较差,收入必然会影响。
  • 性能快:服务器架构更多是希望物尽其用,最大程度地发挥母机性能。
  • 故障处理:硬件随时会出现问题,处理故障包括故障定位和故障解决。在人力有限的情况下轻重分离,重点业务重点保障,故障处理强调的是敏捷。

游戏内部云底层技术架构

游戏内部云底层技术架构分三层:第一层是应用,虚拟化平台门户;第二层是虚拟化的管控层,细分为三大类:虚拟机生产类、虚拟机操作类、虚拟机管理和查询类;第三层是服务器、网络以及存储资源。

内部云底层的关键技术能力分为五大块:接入能力、生产能力、调度能力、性能保障、稳定性保障。

  • 生产能力:每台虚拟子机生产达到10秒以内,每单会有台数上限,取决于当前物理母机资源。结合KVM/XEN,优化生产效率以及全流程。
  • 调度能力:单机的缩/扩容,提高本机资源利用能力;集群的资源利用能力,包括冷迁移和热迁移。
  • 性能保障:生产500台子机,最佳情况小于30秒,整体平均是分钟级别;针对网络包量过多进行了SRIOV技术的引入。提高了网卡的吞吐,降低了母机CPU的负载;修改了XEN相关代码,提高了XEN的VHD磁盘IO吞吐。
  • 稳定性保障:管控平台通过无状态加多实例,保证管控层的99.9%;针对虚拟化底层给XEN4.2打了数十个补丁,有来自社区的也有来自内部的;针对KVM上的Windows子机稳定性问题,也针对PV驱动打了不少补丁。

游戏内部云底层运营体系

离开运营,技术是不可落地的,一个好的技术和产品是闭环的,同时也需要一个高效的运营体系去支撑,否则技术能力得不到推广。内部运营总览分为五块,监控告警、运维变更、质量管理、资源管理、运营报表。然后是三个平台,网管平台、作业平台、运营管理平台。

内部云底层的关键运营能力包括资源运营、故障发现、故障处理。

  • 资源运营:服务器有很完善的体系,能够自动化地对母机的整个设备进行管理、监控、预警。
  • 故障发现:5级(用户、平台、模块、进程、系统)立体化监控保证故障快速发现并告警。告警方式可以分为邮件、短信、微信、电话,根据不同的业务进行轻重分离,不同业务不同告警方式。
  • 故障处理:XEN虚拟化底层,业界首创实现针对XEN的VMM热补丁机制,XEN母机内核故障可以在线打补丁,不需要重启。

游戏内部云底层问题分享

游戏内部云底层的问题主要集中在虚拟化底层(KVM/XEN)上面:

  1. XEN的xen_spin_unlock未能正确唤醒等待锁的VCPU,导致domain0卡死。
  2. CFQ调度算法异步写请求被大量同步请求抢占,异步写饥饿。
  3. 子机发送IGMP Query包,触发Cisco交换机Bug,导致Windows子机丢包。
  4. Blktap驱动在tapdisk进程异常退出时,未清理pending的IO请求导致进程一直处于D状态,无法恢复。
时间: 2024-12-04 08:03:03

腾讯TEG架构平台部总监冯亮:游戏内部云底层技术揭秘的相关文章

揭秘腾讯大数据平台与推荐应用架构

内容简介: 腾讯的月活跃用户8.3亿 微信月活跃用户4.4亿 QQ空间月活跃用户6.5亿 游戏月活跃用户过亿 如今腾讯的数据分析已经能做到始终“不落地”,即全部的实时处理.腾讯大数据平台有如下核心模块:TDW.TRC.TDBank.TPR和 Gaia.简单来说,TDW用来做批量的离线计算,TRC负责做流式的实时计算,TPR负责精准推荐,TDBank则作为统一的数据采集入口,而底层的 Gaia则负责整个集群的资源调度和管理.李勇还特别强调了数据平台体系化是应用基础,数据应用商业化是价值导向. 数据

文思海辉技术有限公司——流程管理架构平台应用

一.项目简介 1.客户介绍 文思海辉技术有限公司的前身分别是文思信息技术有限公司和海辉软件(国际)集团公司,这两家公司都是软件外包服务提供商.之后宣布合并,合并的公司中文名称为"文思海辉技术有限公司" 文思海辉一直致力于为全球客户提供世界领先的商业/IT咨询.解决方案以及外包服务,在金融服务.高科技.电信.旅游交通.能源.生命科学.制造.零售与分销等领域积累了丰富的行业经验,主要客户涵盖众多财富500强企业及大中型中国企业.凭借专业的交付能力,帮助客户在全球市场中赢得成功.目前公司拥有

腾讯首席架构师:Java程序员四个阶段成长路线,少走弯路

有这么一位Java大牛 他是前 Oracle 首席工程师,负责过北京Java核心类库.国际化.分发服务等技术团队的组建.大家都知道,Java 就是 Oracle 公司的,他对Java的理解会与众不同.他把Java程序员的成长路线划分为新手.高级新手.胜任者.精通者和专家,让大家少走弯路.创一个小群,供大家学习交流聊天如果有对学JAVA方面有什么疑惑问题的,或者有什么想说的想聊的大家可以一起交流学习一起进步呀.也希望大家对学JAVA能够持之以恒JAVA爱好群,如果你想要学好JAVA最好加入一个组织

初探科大讯飞-讯飞开放平台之语音合成

1:讯飞开放平台提供了很多服务,有语音相关的:离线,在线语音合成及识别:人机交互:有模式识别相关的:人脸识别,声纹识别:还要云存储等等,如有兴趣,自行百度. 2:看了下官方SDK,试着体验下.导入两个jar包到lib目录,以及两个dll和so文件放到工程根目录. 本次先体验下语音合成模块. 语音合成主要涉及一个类,如下,完成语音的合成 import com.iflytek.cloud.speech.SpeechConstant; import com.iflytek.cloud.speech.S

讯飞开放平台上线业界首个多生物特征融合认证方案

年末岁初,是各类犯罪案件的高发时段,而其中不法分子通过倒卖.盗取他人身份信息后,利用身份认证漏洞可办理银行卡.电话卡,进而从事各种违法犯罪活动的案件近来尤为常见.从前不久微信H5链接盗取支付宝存款的谣言散播中可见广大用户对身份安全认证,尤其是金融领域的安全认证的一贯担忧.话说讯飞开放平台刚刚上线多生物特征融合认证方案,免费向业界开发者开放,“声纹+人脸”验证护航全民信息安全.一起来探讨下,到底有什么特点?案例演示地址:讯飞开放平台多生物特征融合认证方案 信息时代掉,队的身份验证 身处信息社会,如

操作系统发展史,系统架构平台概览; Linux起源、理念、发展历史及各发行版

一.操作系统发展史 维基百科搜索操作系统 操作系统(英文:Operating System,缩写:OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的核心与基石. 操作系统功能: · 进程管理(Processing management) · 内存管理(Memory management) · 文件系统(File system) · 网络通信(Networking) · 安全机制(Security) · 用户界面(User interface) · 驱动程序(Device driv

设计模式<框架<架构<平台

设计模式<框架<架构<平台,从复用角度讲,设计模式是代码级复用.框架是模块级复用.架构是系统级复用.平台是企业应用级复用. 1.设计模式 为什么要先说设计模式?因为设计模式在这些概念中是最基本的,而且也比较简单.那么什么是设计模式呢?说的直白点,设计模式就是告诉你针对特定问题如何组织类.对象和接口之间的关系,是前人总结的经验.比如我要在代码中实现一个全局唯一的配置类,那么就使用Singleton模式.设计模式在实际编码工作和设计框架时会被使用到,而更高层的架构和平台则不会太关注它. 2.

语音识别、语音合成使用基础(讯飞开放平台)

1.在http://www.xfyun.cn进入讯飞开放平台. 创建应用 创建完毕 下载SDK(单个或组合下载):选择服务 选择平台 选择自己之前创的应用 2.下载完毕后,将(F:\讯飞开放平台\Android_voice_1098_574d92ab\libs)libs里面的Msc.jar.armeabi复制到项目中 其中在官网的资料库-开发集成-Android平台有教你怎么使用. 例子: 1.布局分布如下 <LinearLayout xmlns:android="http://schem

腾讯AI开放平台使用

一.腾讯AI开放平台 https://ai.qq.com/ 二.腾讯AI平台支持的功能 三.签名机制 1.计算步骤 用于计算签名的参数在不同接口之间会有差异,但算法过程固定如下4个步骤. 1.将<key, value>请求参数对按key进行字典升序排序,得到有序的参数对列表N 2.将列表N中的参数对按URL键值对的格式拼接成字符串,得到字符串T(如:key1=value1&key2=value2),URL键值拼接过程value部分需要URL编码,URL编码算法用大写字母,例如%E8,而