第一部分 项目概述
1.1 需求分析
对于网络设备的运维管理,大部分公司目前还没有形成一套完整的管理方法,部分公司在网络设备上建立用户名密码,然后运维人员使用网络设备的本地密码登录后进行运维操作,还有一些公司建立有AAA服务器,将用户名和密码交AAA服务器统一管理,但这二种模式在运维管理中都存在相应的风险,主要风险如下:
u 密码外泄:没有统一的密码管理机制,存在很多人员共同使用同一个系统帐号的情况 ,造成系统帐号的密码为多人所知,最终,系统密码非常容易外泄露给第三方人员;
u 违规恶意操作:对操作人没没有统一的监控、审计系统,操作人员操作的过程无法进行回溯,容易造成操作人员越权删除、修改数据以及配置系统的情况
u 管理授权混乱:当网络设备多,运维人员数量多的时候,管理授权容易出现混乱,没有一个统一的系统为运维人员进行授权,并且对权限进行回收管理,形成一定的运维风险
上述这些问题的原因,都是因为没有一个统一的运维管理平台,造成运维管理黑盒化导致,因此建立一个安全、可靠、易用的运维管理平台,为近期企业IT运维的迫切要求。同时国家及行业也相继出台了相关的法律法规及管理规范,如CSOX和等保规定,要求系统运维在访问控制、操作审计等诸多方面做得更加全面有效的管理。
1.2 建设目标
本方案主要是通过对人员、设备、操作的管理,实现运维管理的白盒透明化,同时将各项运维管理规章制度,能以可监控的方式进行管理落地。项目建设目标主要是以运维过程的安全、操作管理进行,最终达到运维规章制度可能有效执行,根据这些原则,将系统建设目标明细为如下点:
u 统一的运维管理:建立统一的运维管理平台(堡垒机系统),用户由过去直接访问网络设备,改为从堡垒机跳转登录,堡垒机上实现认证、授权、审计及帐号的管理。
u 认证权限集中管理:堡垒机上启动AAA服务器,将网络设备的认证统一放到AAA服务器上,AAA服务器上的密码系统可以自动按时修改,不需要运维人员知道AAA服务器上的密码,当用户想要登录网络设备时,由运维平台自动为运维人员填写登录密码,这样能保证最终设备密码的安全性。
u 强认证管理:用户登录堡垒机时,必须使用令牌卡生成的动态口令登录,这样可以保护用户的口令安全性,并且可以做到认证的不可否认
u 运维操作的审计和分析:运维人员登录到网络设备进行操作后,运维平台对整个操作过程进行录相、分析,通过平台可以对任何一个操作过程进行回溯,同时,平台可以分析整体运行情况,比如运维人员的巡检、故障排除统计等,审计分析可以使运维管理白盒可视化,达到管理人员可以时刻了解当前运维操作状态的目的,以使运维管理制度得以落地。
u 快速定位问题:必须对操作人员原始的操作过程进行完整的记录,并提供灵活的查询搜索机制,从而在操作故障发生时,快速的定位故障的原因,还原操作的现场;
u 兼容操作习惯:尽量不改变运维环境中已有的网络架构、对操作者原有的操作习惯不造成任何影响;
1.3 方案设计
1.3.1 方案整体设计
整体系统以运维安全管理规章制度有效运行、运维管理白盒可视化为设计实施依据,系统整体设计思路如下:
规章制度实施是准则:运维管理,主要是通过规章制度对人的行为进行控制,进行保证系统的稳定运行,因此,运维管理其实其本质就是规则制度的有效实行,整体运维平台上线,最大的目的就是将运维管理从不可视的黑盒管理改为可视的白盒管理,同时,通过自动巡检、密码自动修改、SSO等功能大大减轻运维人的工作强度。
规章制度实施主要依靠身份认证、授权控制、审计分析来实现。
身份认证是前提:身份管理解决的是操作者的身份识别和工作角色的问题。因为所有的操作行为都是由操作者发起的,通过操作者的身份管理机制,是后续对操作者操作过程进行控制和审计的基础。
控制权限是手段:通过访问控制手段确保合法的操作者只能合法的访问资源,有效降低未授权访问的安全风险。
审计分析是保证:操作审计的意义在于当发生操作事故时,可以借助审计日志快速定位问题的原因,还原操作的现场,真正完善责任认定的体系。操作分析可以让管理层得以有效把握目前运维管理的状态,实现运维管理的合规化。
1.3.2 方案详细设计
旁路统一入口模式,实现集中管理
运维操作管理系统采用“旁路统一入口”的模式实现集中管理,这种部署模式的优点是在部署过程中,无需在被管理设备上安装任何代理程序或插件,也不需要调整设备之间原有的网络架构,对用户当前的运维环境几乎不会造成任何影响。设备的物理部署图如下:
部署说明:
1. 部署方式是旁路部署;
2. 部署条件是运维管理平台到被管理设备IP可达,协议可访问、运维终端到运维管理平台IP可达、协议可访问;
3. 所有被管理的网络设备将AAA认证指到堡垒机上,在堡垒机上为所有设备建立Radius帐号,登录这些设备时,认证在堡垒机上进行
4. 为所有的运维人员在堡垒机上建立运维帐号,并且为运维帐号做出权限列表,即为运维帐号指定能登录到哪些网络设备
5. 登录过程:所有用户登录网络设备时必须通过堡垒机跳登录,用户用唯一的用户帐号登录到运维操作管理系统上,然后运维操作管理系统会根据配置管理员预先设置好的访问控制规则,提示用户选择可以访问的目标设备和相应系统帐号,用户选择后自动登录到目标设备,用户登录堡垒机时,需要使用动态令牌卡生成动态口令进行登录,以保证认证的安全性
6. 用户登录后的所有操作都会被录相留存
7. 系统使用Active-Standby的双机热备部署模式。
第二部分 功能实现
1.4 系统模块
本次系统主要围绕运维安全性、可管理性而建设,主要需要实现包括统一入口管理、统一授权、统一认证、统一审计、统一分析、及时告警六大项功能,针对这六大项基本功能,将系统模块分为如下几块:
统一接入模块:
统一接入模块主要实现入口统一管理,包括运维管理登录Portal、双代理模块、VPN移动用户接入三部分。
运维管理登录Portal为用户提供一个统一的登录入口地址,将用户登录入口统一以后,才能进行针对性管理,统一Portal模式是一个登录的Web界面,用户登录Web界面后,可以看到自身的所有权限,通过占击相应的权限连接到相应的服务器。
双向代理模块用于提供用户自启客户端的登录方式,通过双代理模式,用户可以点过WebPortal,直接使用SecureCRT、Mstsc等任何工具登录,双代理模块模式相对于WebPortal模式完全不改变用户操作习惯,用户更宜于接受。
VPN模块用于提供运维用户远程接入,从管理角度来说,运维业务系统为一个专有系统区别于办公、财务等系统,因此,一般情况下运维平台应该具备VPN接入的功能,让运维人员有一个专门的VPN接入接口与其它部分分离。
认证授权模块:
认证授权模块主要实现动态口令、单点登录、权限管理、密码管理四个功能
动态口令用于解决目前静态密码的各种弊端,可以彻底的实现密码丢失、弱口令、密码扫描等安全问题,一个标准的运维系统动态口是是必须具备的一个功能模块。
单点登录用于让用户登录到运维平台后,即可以不需要输入其它系统的密码,直接登录到已经赋权的系统,可以实现密码屏蔽、登录方便等功能。
权限管理,用于指定用户的操作权限,包括用户可以登录到的设备、可以使用的设备帐号以及登录到设备上可以执行的操作命令等。
密码管理用于帮助用户执行密码规章制度中的密码修改策略,密码修改策略上线后,密码管理软件可以自动按密码策略对系统密码进行修改,以使管理制度落地。
审计分析模块:
审计模块用于对操作人员的操作进行录相和分析,用户通过运维管理平台登录到业务系统后,所进行的操作都会被运维管理平台录相,同时,分析出用户的明细操作,包括用户运行的命令、敲击的键盘、上传下载的文件、数据库指令、数据库操作取回的数据等,通过审计分析,可以对操作人员的操作过程进行评判,评判他的操作过程是否有违归、恶意操作,同时如果发生误操作,可以及时回溯,恢复到系统原来的正常状态。
此外,审计分析模块还有实时审计功能,管理者可以在任何地方将任何操作人员的屏幕切到自己的屏幕上进行监控。
日志关联模块:
运维管理中,日志系统的分析和关联是很重要的一部分,没有日志关联,很难将系统发生的事件与运维操作关联起来,运维关联模块可以将用户登录、运行命令、系统日志等一系统事件统一关联,让管理者不需要通过分散的日志、网管、堡垒机系统一样一样的分析事件原因,大大提高了运维效率和事件分析的准确性。
告警模块:
告警模块用于当用户发生恶意、违规等操作时,以短信、邮件、SYSLOG、Console等方式及时实时通知相应管理人员,以让管理者及时处理这些事件。