万达故事 首页 > 企业内刊

信息系统运维的小事

作者:集团信息管理中心 鲁杭

万达集团数据中心是一个12人组成的运维队伍,1年365天,1天24小时,他们每时每刻都承担着集团信息系统的运行维护重任。今年该中心搬到了万达学院内。

在一个普通的夜晚,廊坊数据中心内灯光明亮,2名运维人员正在执行夜班任务。凌晨1点55分,天空忽然下起了大雨,电闪雷鸣,打破了万达学院内的寂静。运维人员小丁面前的手机铃声响起,这已经是他昨天下午6点上班以来听到的第17次闹铃了。闹铃显示的内容是:2点整,数据中心屋面空调室外机巡检,请持手电、巡更棒;如有下雨,需额外检查屋面排水情况。2点整,小丁准时出现在屋顶,手里拿着照明灯和巡更棒的他,无法打开雨伞,只能冒雨逐一检查每一组空调风机的排风情况。

在20分钟时间里,当他完成了48组144个空调风扇的巡检任务后,早就已经浑身湿透,他哆嗦着回到监控室,继续做记录。不久,手机闹铃又显示出下一项任务……

这是在研读了《把工作做到极致》一书后,数据中心运维团队改良巡检规范后的成果。

在此之前,运维团队一直在摸索如何能有效地安排一天多达50次不同种类的巡检监控及记录工作。数据中心的设备品牌多、数量大,机房面积达到900平方米,精密空调有24台,不间断电源电池共有934块。在数据中心监控室,运维人员需要不分昼夜地对万达集团全国广场、售楼处、项目公司、独立院线等共550个网络节点,总部机房及廊坊数据中心215台核心服务器进行全方位的监控。在极短的时间内,要对这些信息进行采集、整理,并按时做成报表发送给相关系统负责人,其难度之大可想而知。数据中心运维团队从三方面入手,将具体措施落到实处,力争把小事做到极致。

首先是制定详细而严格的巡检标准。数据中心的巡检记录单多达12页,清楚列出了数据中心每一个房间、每一组机柜、每一台设备的巡检标准,以及正常的数值范围,运维人员在现场巡视时对相关数值进行记录,回到监控室后再与监控系统的采集数值进行比对,确保巡检工作的准确性。每天,他们又会将相关的巡检记录单扫描成电子文档,交给北京监控中心的同事进行二次复核。

另外,我们使用值班手机闹铃,精准派发任务。为了及时提醒值班人员的工作任务,手机闹铃成了最为行之有效的方式。在廊坊数据中心,每隔30分钟左右,值班手机的闹铃就会响起,各项任务要求一目了然。1天24小时,用手机闹铃提醒的任务多达43次。通过这种方法,数据中心的巡检工作越发井然有序,效率大为提高。

同事们还互相分享经验。数据中心设备类型繁多,每个运维人员可能都会遇到相同的,或者不同的问题,及时将相关经验记录在案,现在已经成为数据中心团队的重点任务。我们把每一次出现的故障现象、解决办法都详细记录下来,及时整理成运维经验,纳入知识库,与其他同事共享。正是这一个个小小的经验,凝聚成了数据中心团队强大的战斗力。

数据中心运维团队每天都在重复着这些看似简单的运维工作,但他们都知道,想要将这些事情做到极致,不仅难度很大,而且意义非凡。小事不为,大事难成,把小事做细做精不容易,更容不得丝毫的放松与懈怠。

返回顶部