监督和审计也是关键---携程528事件启发

5月28日下午2点左右,针对携程网站无法打开的事件在朋友圈被刷屏。刚刚开始是各种调侃,其中要求对运维人员好一点的呼声最高、传播最广,然后是携程老板悬赏100万解决问题,到了晚间央视财经网、腾讯网、新浪网、地方电台等主流媒体都发表了该事件的看法,其中也有很多的负面信息。总体来说这次的事件对携程的负面影响还是比较大,也引发了很多行业专家的思考。从5月29日起行业内的一些安全专家就发布了一些深度文章,其中有几个非常有指导意义。

1、阿里智锦《深入解析和反思携程宕机事件》则认为运维应该从黑盒运维走向白盒运维,是一个转型的最佳时机。

2、老王的《运维债务的剖析与解决方案》非常深入的从流程规范、工具与平台、安全,灰度机制、意识、环境管理、数据管理、架构等多个角度来探讨,然后结合最佳实践的方法论,从各个角度提出了解决方案。

3、另外也有很多做数据备份的同仁提到数据备份的重要性、应急响应的重要性。

对于这些文章,笔者都一一拜读过,也得到了很多的启发,如果企业能够按照这样的方法去思考改进,相信这种灾难性事件的几率会减少很多。

但是笔者心中始终还有一些疑问,这么大一个携程,难道其没有配置管理、变更管理等IT管理流程?难道其没有数据备份措施?安全防护措施还不够完善?没有应急响应机制?答案显然是否定的,笔者也与携程的安全团队、运维团队有过一些交流,其实携程内部也有非常多的思考,其每年也投入了巨大的资金用于IT运维和安全建设。其安全团队也经常性的组织安全沙龙、启动了漏洞奖励计划等,积极和业内安全专家进行交流互动。那为什么事故还那是发生了呢?我们能够从中还能够发现什么问题吗?

于是笔者认真学习、分析了各方面专家的观点后,发现有个环节真被忽略了,就是“监督和审计机制”。说白了就是我们的安全管理者是否对信息系统中的IT防护措施做到可见、可控、可追溯?我们的IT管理者不防思考一下几个问题,看看自己能否在短时间内回答这些出来。

1、防火墙、ips、WAF等安全控制策略是否有效、完整,上一次更新时间是多少?

2、应用和系统漏洞上一次修复时间点是?

3、有哪些业务系统和人可以调用访问数据库?其访问权限是否合理、最小化?

4、有多少内部人员、第三方人员可以接触核心系统?他们的开发、运维过程是否可视?

5、服务器的批量操作、高危命令执行是否可靠、经过不少于两方的确认?

6、关键服务器、网络设备的密码什么时候修改过?

7、数据备份的机制什么,上一次数据恢复演练是什么时间?

笔者相信有很多人是没法完整答复的,因为我们的管理者没有这样去想过,更没有定期去系统性的梳理过。甚至还有一部分管理者认为已经有了防火墙、防病毒、WAF、备份系统、审计系统等安全措施就是安全了。所以还是要有完善的“监督与审计机制”,那么怎么来建立呢?

参考PPT(人、技术、流程)方法论,我们的观点如下:

1、人的方面:

必须得建立独立的审计部门,实现IT建设部门、运维部门、审计部门的分离和相互制约。

审计部门需要配备有专业的审计技术人员,至少涵盖管理制度审计、业务流程审计等方向的人才。

审计人员也需要具备专业的IT技术,甚至审计人员技术水平要优于IT技术人员,否则审计就难以落到实处。

领导层也要足够重视审计部门的工作,将审计成果推广应用。

2、技术方面:

建立核心数据的访问环节审计措施,动态了解核心数据库、敏感文件等的访问人员、访问权限、流转情况。可采用专业数据库审计系统,建立敏感数据的访问行为模型,动态掌握模型的变更,发现异常。

建立运维环节的审计防护措施,掌握运维环节的人、设备、权限、操作过程等关键环节。可采用运维审计系统,实现运维人员实名制、双因子认证、最小权限控制、运维过程审计等,让整个运维环节可控、可追溯。

建立安全策略的有效性审计措施,可通过上述数据库审计、运维审计、流量审计等日志审计系统,及时验证防火墙等访问控制设备的策略有效性,也可以辅以安全渗透测试、模拟攻击等手段来验证。比如数据中心防火墙规定仅允许了192.168.1.100-110共10个IP地址访问数据库,那数据库审计系统上就可以设置相应的审计措施,来动态监测是否有查处这些IP地址范围的人来访问,如果有就进行实时告警。

建立综合审计管理平台,能够收集数据库审计、运维审计、系统、安全设备、网络设备等各个方面的审计日志,然后分类进行展示,帮助审计部门全面掌握各个环节的状况。

3、流程方面:

建立管理制度执行情况的审计,主要对公司的变更管理流程、配置管理流程、备份流程、密码修改流程、人员权限管理流程等进行执行效果的审计。因为各单位的方式不同,可能只能由人来进行操作,主要通过查看分析其流程执行。

建立应急演练措施,需要包括网络故障、黑客攻击、数据库故障、电源故障等多个方面,而且要定期进行真实演练。这一点上证券行业做的相对较好,拥有较丰富的经验,值得大家借鉴学习。

建立审计考核机制,包括审计人员自身绩效考核,以及审计部门如何制约IT建设部门、运维部门的机制。否则审计部门将永远不能受到重视,所有的审计措施也将失去意义。

总的来说,监督和审计机制确实需要引起大家的足够重视,要做好审计的工作,也有几个简单的经验可以参考:

先简后繁:先从领导认可的、重要性高的地方开始,比如数据库的审计、运维的审计、管理流程审计,然后逐步覆盖到综合日志关联审计、web业务审计、应急演练等。

定期开启专项审计:比如每个季度开展一次审计专题活动,比如数据库访问权限审计专题、第三方外包人员管理过程审计、备份恢复有效性审计等,这样不仅能够帮助IT部门发现问题,还能够起到很好的宣传效果,有利于审计部门自身的价值呈现和团队建设。

安恒信息堡垒机、web业务审计产品经理——郑赳JOJO

时间: 2024-10-11 12:22:35

监督和审计也是关键---携程528事件启发的相关文章

携程数据库安全事件原因分析

关于携程数据库事件网上有各种说法,有传数据库数据和备份数据是被物理删除的,也有说是各个节点的业务代码被删除,也有说是误操作,导致业务不可用. 携程官方29日凌晨给出的解释是:5月29日1:30分,经携程技术排查,确认此次事件是由于员工错误操作导致.由于携程涉及的业务.应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间.携程官方网站及APP已于28日23:29全面恢复正常.对用户造成的不便,携程再次深表歉意. 尽管众说纷芸,作为国内专业的数据库安全厂商安华金和,对于事件背后的深层原

如何利用Azure中的Traffic Manager避免此次携程事件

此次携程事件导致携程网站和APP停止服务长达将近9个小时.至于什么原因引起的,截至到我写稿时还没有一个官方的答复.那些坊间的传闻这里我就不再多说,至于一点,携程的网站在停止服务9个小时内竟然没有一套备用站点快速的切换提供服务,这是不可理解的. 下面就这个事件,我设计了一个简单的场景,站点1(Blog01)是主站点,站点2(Blog02)是备用站点.我采用Traffic Manager将这两个站点做高可用负载平衡.   先来看下Microsoft Azure Traffic Manager 到底是

携程第四代架构探秘之运维基础架构升级

作为国内最大的OTA公司,携程为数以亿计的海内外用户提供优质的旅游产品及服务.2014年底携程技术中心的框架.系统和运维团队共同启动了架构改造项目,历时2年,涉及所有业务线.本文回顾了携程在整个技术架构改造过程中的一些实践和收获. 一.写在前面 随着携程业务量迅速增长.业务变化越来越敏捷,对于应用交付的效率也提出了更高的要求.根据统计,截止2014年底携程总应用数在5000个左右,平均每周约有3000次以上的发布需求.所以作为整体交付环节中极为重要的一环,应用的部署和发布是提高交付效率的关键,然

前有机票,后有酒店,携程又一重头被去哪儿超越?

日前,在去哪儿庄辰超的内部邮件中公布了国庆当天的入住间夜量,达到了50万间夜,单日年对年增速创下了最近五年的新高.同时庄辰超还表示,去哪儿酒店业务历经艰难,已经接近或者峰值达到市场第一.去哪儿酒店获得如此惊人的增速,究其原因,刘旷认为主要有以下几个方面: 1.得益于去哪儿具有狼性化的线下地推团队.从去年1月份开始,去哪儿成立目的地事业部,正式开始了酒店直签业务,短短一年多的时间,去哪儿网的酒店直签数量就达到了近30万家.通过线下地推团队的建设,去哪儿网加强了对整体酒店资源的控制,尤其是在广大的三

每天近百亿条用户数据,携程大数据高并发应用架构涅槃

互联网二次革命的移动互联网时代,如何吸引用户.留住用户并深入挖掘用户价值,在激烈的竞争中脱颖而出,是各大电商的重要课题.通过各类大数据对用户进行研究,以数据驱动产品是解决这个课题的主要手段,携程的大数据团队也由此应运而生;经过几年的努力,大数据的相关技术为业务带来了惊人的提升与帮助. 以基础大数据的用户意图服务为例,通过将广告和栏位的"千人一面"变为"千人千面",在提升用户便捷性,可用性,降低费力度的同时,其转化率也得到了数倍的提升,体现了大数据服务的真正价值. 在

python学习笔记-Day11 (线程、进程、queue队列、生产消费模型、携程)

线程使用 ###方式一 import threading def f1(arg): print(arg) t = threading.Thread(target=f1, args=(123,)) t.start() # start会调用run方法执行 # t是threading.Thread类的一个对象 # t.start()就会以线程的方式执行函数,可以使用pycharm ctrl选择start方法 # 找到Thread类的start方法,在start方法的注释中就已经写明,会去调用run()

携程Android App插件化和动态加载实践

携程Android App的插件化和动态加载框架已上线半年,经历了初期的探索和持续的打磨优化,新框架和工程配置经受住了生产实践的考验.本文将详细介绍Android平台插件式开发和动态加载技术的原理和实现细节,回顾携程Android App的架构演化过程,期望我们的经验能帮助到更多的Android工程师. 需求驱动 2014年,随着业务发展需要和携程无线部门的拆分,各业务产品模块归属到各业务BU,原有携程无线App开发团队被分为基础框架.酒店.机票.火车票等多个开发团队,从此携程App的开发和发布

携程DynamicAPK插件化框架源码分析

携程DynamicAPK插件化框架源码分析 Author:莫川 插件核心思想 1.aapt的改造 分别对不同的插件项目分配不同的packageId,然后对各个插件的资源进行编译,生成R文件,然后与宿主项目的R文件进行id的合并. 要求:由于最终会将所有的资源文件id进行合并,因此,所有的资源名称均不能相同. 2.运行ClassLoader加载各Bundle 和MultiDex的思路是一样的,所有的插件都被加载到同一个ClassLoader当中,因此,不同插件中的Class必须保持包名和类名的唯一

收购艺龙,携程“居心叵测”,用垄断倒逼去哪儿

一石激起千层浪,对于携程收购艺龙这件事业界出现了多种声音,也假设了多种可能,但说来说去无外乎"看好"与"看衰"两方面.从策略层面来看,控股艺龙固然是一步好棋,但市场作用被炒的有些过于夸张了,其实携程正在做一个局,而艺龙是这盘棋局中的关键一子. 收购艺龙或暴露了携程居心叵测的大布局 从过去的成长经历来看,携程非常擅于做局,而这次收购艺龙的背后隐隐浮现出携程用心良苦到居心叵测的一盘大棋局.有没有想过,为何前不久还在盛传"去携"合并,如今却突出变成了携