不想日日加班还被骂?数据机房运维是时候升级了
随着信息技术的发展,尤其是 5G 时代的到来,数据中心的规模越来越大,从而带动能耗的不断攀升,这对数据中心管理来说是一场考验,更是数据中心运维模式升级的驱动力。
目前传统的运维模式因为缺少自动化的管理模式,致使问题出现后很难快速准确地找到根本原因,无法及时解决,即便找到问题也没有流程化的故障处理机制,在解决问题时又欠缺规范化的解决方案,更没有全面跟踪记录。这导致运维人员终日忙碌,运维质量却很低,业务部门对运维部门的满意度则更低。
虽然大多数据中心已经进入到了智能化运维的阶段,但依然有一部分数据中心还在采用传统的运维模式,每天通过人工去频繁地监测、维护、部署。这种模式过度依赖运维人员的技能、经验和责任心,很容易导致故障的重复发生,甚至引发其他更严重的问题。
传统运维模式的弊端
有一家企业,业务升级之后,数据中心设备也进行了增设或更新换代,但仍旧延续了传统的运维管理体系。由于设备更多、系统更复杂,即使增加运维人力也不能从容应对机房突发事件,结果导致运维人员经常加班加点,维护和排查的效率却很低,严重影响了企业的整体投资。
如果这家企业采用智能化的运维模式,不仅可以降低运维难度和机房故障率,还可以很大程度上节省运维成本。为保障数据中心的运行环境,有效提升业务投资价值,数据中心运维必然会从传统的运维模式逐步发展为智能化的运维模式。
智能运维更多是利用大数据和 AI 等技术对当前 IT 和云业务需求和变化进行分析,匹配不同的运维场景,通过配置和优化运维流程,提高流程闭环率,从而降低运维人力成本和减少运维事故的发生。
DCIM 是近年来在数据中心运维领域的绝对热点,通过 DCIM 可以架起一座连接关键基础设施和 IT 设备的桥梁,从而帮助运维人员更高效地管理数据中心。但是,DCIM 理论和框架在落地实施的过程中还存在许多困难,一方面需要和数据中心已有的各类系统进行对接和功能划分,另一方面需要改变已有的流程和工作习惯。
针对这一境况,华为结合自身自营大型数据中心的丰富经验与 AI+ 大数据的领航实力,针对 DCIM 领域,发布了《智能运维白皮书》,该白皮书介绍了从传统运维到智能化运维的 5 个阶段,及每个阶段的典型特征。可帮助运维人员明确数据中心当前所处阶段及未来演进和优化的目标,并提供基础设施可用性管理全景及对应的智能化措施。运维人员可以利用这些信息更好地规范运维管理,并制定智能化运维升级计划。