数据中心事件管理的关键控制点

来源:贝博ballbet体育网页版    发布时间:2024-01-20 04:36:48
  • 贝博ballbet体育网页版地址
描述:...

  数据中心事件是指发生的对IT体系某一环节运行造成影响的事件,包括系统崩溃、软件故障、基础设施故障以及任何影响用户业务操作和系统正常运行的故障。事件也包括一个用户的请求。对日常性运维工作中出现的一些突发事件和由用户/维护人员报告的事件会装入事件管理范畴。而想要做好数据中心运维事件管理,就必须从以下论点入手:

  制订有效的事件管理制度是为了规范数据中心事件管理过程,及时消除或控制事件造成的影响,提高事件的应急处置能力和信息安全的综合管理上的水准。数据中心的事件管理相关制度包含常规的事件管理制度、重大事件应急处理制度,以及与事件相关的可用性管理、监控管理、值班管理、ECC管理制度等。以常规的事件管理制度为例,其主要关注点如下。

  明确的事件处置目标:在数据中心出现事件时能尽可能迅速恢复数据中心正常运行,把对业务的影响降到最低,以确保服务质量满足SLA的要求,实现快速定位故障、迅速处置。

  清晰的角色职责划分:事件管理的角色包括用户、服务台、运维工程师、事件经理、值班工程师以及运维监理构成,协调部门包含值班经理、值班主管和事件处置决策人。处理部门包含服务台、一线、二线和三线,各岗位工作职责分工明确,互相配合,以提高协同处置能力,减少沟通成本。

  做好事件级别的定义:事件级别的定义需要确定事件的优先级,以确保足够的资源对事件进行相对有效的处理。事件优先级由事件的影响度和紧急程度决定。影响度是指业务影响面,通常通过受影响的用户数量、受影响的服务器台数、会造成的业务损失等来判断。紧急度是指事件需要被解决或能够容忍被延迟解决的速度。

  *一般事件:指由机房基础设施内部保护性报警,短时间运行异常等因素引起的对机房设备的正常运行形成安全风险隐患但未造成实际影响的各种异常情况。

  *严重事件:指由机房基础设施故障,以及其他外界或人的因素对机房正常运行造成影响(非关键业务N台以上IT设备非正常停机)的各种异常情况。

  *重大事件:指由机房基础设施故障,以及其他外界或人的因素对机房正常运行造成重要影响(重要业务或N台以上IT设备非正常停机)的各种异常情况。

  固化的通报和处理流程:按照事件级别,严格定义事件通报对象和升级的时限要求,将通报和处理两个环节分别拆分细化和标准化,简化冗余操作,固化处理流程,以最快的效率完成事件通报报和处理。

  确认事件关闭:事件解决并恢复服务后,必须确保事件相关的信息得到了更新和准确的记录,如发生事件的最终的原因未能找到,则应转入问题管理流程后,该事件方可关闭。

  完善的事后总结工作:事件处理完毕后,通过问题工单跟踪整改措施,通过应急预案更新工单完善应急处理手段。总结经验教训,纳入知识库,形成组织过程资产。

  事前:完善工作机制、提高预警能力,更早察觉缺陷。制订闭环的事件管理机制,打通事件管理与监控管理、值班管理、容量管理等能力项接口,运用自动化、智能化的分析工具和手段,变被动为主动、做到事前预防。

  事中:协同高效,迅速恢复。事件处理过程中的一切决策都以迅速恢复生产服务为首要目标,从流程和调度层面解决故障处理过程中的信息孤岛问题,使得处置人能共享信息,共同排查、定位故障原因,采取应急措施,做到事中及时有效的处置。

  事后:举一反三,持续优化。事后管理需要深挖事件根源,最大化地提取事件经验教训。通过运维、开发、测试、风险和厂商等多方共同参与,对事件进行剖析、复盘,发现在监控、调度、工具和技术等层面的不足,进行持续优化,并对好的经验进行分享,定期组织事件总结分享,做好经验的推广和实施工作。

  与问题管理的关系问题管理的目的是找出事件的最终的原因,并通过变更管理来进行纠正,以防止此类事件的再次发生。解决时长超时限:事件处理过程无法按照规定时限解决,需要转为问题管理做处理。解决难度大:故障、缺陷等难度过大,且需要投入更多资源参与解决的,转为问题管理流程进行处理。

  与变更管理的关系变更管理的目的是确保以受控的方式去评估、批准、实施所有的变更请求并保证所有的变更可跟踪和追溯。在事件处理过程中,在大多数情况下要对涉及的相关配置项做必要的变更才能解决的事件,经处理人确认并发起变更流程。事件与变更是相互影响的关系,事件处理可能触发变更流程,而变更流程也可能会引起事件的发生。

  与配置管理的关系事件处理过程中,有可能需要从配置管理数据库中查询相关基础设施配置项的属性和配置项间的关联关系来协助事件的解决。

  与知识管理的关系事件得到解决后,事件经理、运维工程师负责对解决事件的思路、办法来进行总结,提炼有价值的知识内容提交知识库进行共享。

  通过管理与技术方法逐渐完备,实现了事前预防、事中处置和事后总结的闭环管理,通过主动性运维,协同高效处置事件等手段,确保事件管理的目标达成,从而逐步的提升我行信息系统的服务的品质与可用性水平。返回搜狐,查看更加多