IDCM(Internet Data center monitoring, 网络数据中心监控平台),该项目是阿里巴巴技术保障部基础架构运营体系的一部分。通过对阿里集团内部的基础架构体系进行运营管理,为阿里集团内部的上层各个事业部提供服务。主要服务对象包括:阿里云、高德、UC、国际交易等。IDC(Internet Data center),即互联网数据中心。所谓IDC业务是电信部门利用其自身丰富的网络资源,为企业提供服务器托管、租用以及相关增值等方面的全方位服务。顾名思义,IDCM项目是对IDC业务的运营平台。
首先来说下,阿里巴巴基础架构运营体系,它共包括五大部分:IDC生命周期管理,服务器生命周期管理,网络生命周期管理,操作系统生命周期管理,运营管理。前四个部分的生命周期管理,用于规范设备(资产)日常维护流程。例如从服务器的采购,到服务器的上/下架,服务器设备替换,服务器网线/光纤更换、(服务器)硬盘拔除工单、(服务器)硬盘消磁折弯工单、服务器的搬迁工单、服务器的RMA(废料审查)工单。最后一部分的运营管理,为了保证阿里基础架构环境发生故障时,能够根据故障级别,有序通知到相关方且触发对应的故障应急处理,将业务损失降至最低,故制定重大运维故障应急处理流程,即运营平台。下面分别介绍下基础架构运营体系中各大部分所承担的责任。
服务器生命周期管理,主要实现了:服务器供应商的管理、服务器的采购/发货/验收/生产交付管理、服务器故障流程管理、服务器报废流程管理等,其主要以服务器为维度进行管理。
网络生命周期管理,主要实现了:网络供应商的管理、网络采购验收管理、网络部署交付管理、网络定期检修/故障处理管理、网络退役流程管理等,对基础架构运营体系中网络部分作出了集中管理。
操作系统生命周期管理,同上。系统的研发、测试、部署与交付都在该周期内管理。
IDC生命周期管理。IDCM项目即是该大块中的一小部分,著名的杭州千岛湖数据中心即是受该平台所管理的。IDCM项目涵盖了IDC安全管理规范和现场运营流程。其中,现场运营流程是项目的核心模块。现场运营流程主要有机房、房间、机柜、机位、服务器、网络设备等几大主体。由于运营流程要交给人来操作,所以在项目中维护了基础设施管理员、机房管理员、机房经理、物流供应商、系统管理员、驻场工程师、网络工程师等角色,底层的驻场工程师负责运营流程的任务执行,其他角色则负责相应的审批、盘点、盘盈、盘亏、报备等操作。
1.机房管理:机房查看,机房筛选,机房添加(添加后要走审批流程)、机房人员关联。
2.房间管理;机柜管理;机位管理;同上。用于录入信息,维护信息。
3.现场作业:现场作业是IDCM项目核心中的核心。它以服务器、网络设备、人、供应商为核心,用各种工单将上述主体串联起来,以实现现场作业流程。下图是千岛湖数据中心截图。