AI 加持,让智能运维成为数字世界的必选项
AI 正在深刻地改变我们的工作和生活方式,甚至包括我们的饭碗。 2017 年底,BBC 和剑桥大学的学者一起分析了 300 多个职业在未来的被淘汰概率,IT 工程师以 58.3% 的概率高居第 15 位。这里的 IT 工程师就包括了在传统运维部门中占据大量岗位的系统管理员和网络工程师。
这并非是危言耸听,我们可以看到的是,越来越多的系统管理工具和运维监控工具开始整合机器学习、深度学习等人工智能技术。而 AI 在大幅度提升 IT 运维能力的同时,也让 IT 部门逐步减少对基础运维岗位的需求,完全依靠人力解决运维问题的时代已经渐行渐远。
AI 在 IT 运维领域的应用被诸多分析机构和新一代 CIO 当作企业数字化转型的突破口。Gartner 在 2016 年首次提出智能运维(AIOps)这一个概念之后,迅速得到业界的广泛响应。无论是 IBM、CA 等传统运维巨擘,还是 Splunk、Dynatrace、云智慧等新兴运维企业,都把 AIOps 作为 IT 运维发展的未来。
智能运维,数字化转型的必选项
物竞天择的自然法则同时主导着数字世界的发展。
任何一个技术的流行都不是凭空的,AIOps 智能运维也不例外,最根本原因是市场需求在推动。
在信息化时代,IT 部门扮演着业务跟随者的角色,遵从业务需求支持 ERP、财务、OA 系统的运转,运维主要承担封闭 IT 环境中硬件设备和软件系统的日常巡检、维护、升级工作,由于业务对 IT 的依赖程度不高,企业对运维效率和问题解决能力的要求也不高。
“随着产业互联网的发展和数字经济的增长,业务运行越来越依赖 IT 的高效运转,IT 部门的角色发生了巨大的变化,由跟随者变成了支撑者、甚至业务创新的引领者。数字世界里,IT 基础设施陆续上云,过去需要直面的各类硬件设备、软件系统隐藏了起来,而展现在我们面前的虚拟机、容器、微服务让 IT 架构变得更加庞大、复杂,移动化、IoT 的大量应用则把 IT 边界从内部扩展到边缘。这是近两三年中国传统企业在数字化转型过程中都会遇到的难题,当 IT 建设达到相当规模,传统运维工具和运维方法无法解决企业遇到的种种问题,智能运维的需求自然就冒出来了。”云智慧总裁刘洪涛感慨道。
刘洪涛所领导的云智慧公司成立于 2009 年,是一家为企业提供全栈智能 IT 运维产品的解决方案服务商,旗下监控宝、透视宝和压测宝等 IT 运维产品拥有良好的用户口碑。 10 年来,云智慧一直扎根在 IT 运维市场精耕细作,对于这个市场的每一次变化起伏,刘洪涛都有非常深刻的感受。
以“非常传统”的房地产行业为例。一直以来,拿地盖房售楼都是国内房企的最核心业务,而现在商管、文旅等新业务逐渐成为头部房企的拳头产业。 2018 年万达商管集团收入 376 亿元,文化集团收入 692 亿元,二者累加已经达到万达地产集团 540 亿收入的一倍。而云智慧服务的这家房地产巨头,随着业务转型的加速,IT 规模呈爆发式增长,目前有超过两百个系统支撑着新业务的运转,每天的工单、告警数量堪称海量。对于一家正在向技术密集型企业迈进的“传统”企业来说,依靠人力去解决规模化、效率低等 IT 难题显然与数字化转型的初衷背道而驰。所以,必须充分利用大数据和人工智能技术,建立全新的智能化运维管理体系和智能运维系统。
“换成两年前,这家房地产公司绝对不会采购智能运维这种新一代 IT 运维解决方案。然而,随着数字化转型的深入,房地产智能化成为潮流,一套套新的应用陆续上线,大量 IoT 终端被部署到全国各地,基于 CMDB 和 ITIL 体系建立的运维管理流程和相关工具暴露出严重不足。”刘洪涛说。
这家房企的遭遇并非孤例。刘洪涛能明显感受到近两年智能运维需求的增长。“房地产这样一个相对传统的行业,都在数字化转型的倒逼下产生了如此强烈的需求。而在金融、电信、航空、能源等 IT 成熟度更高行业里,AIOps 智能运维的作用更为突出,需求也就更加旺盛。”他欣喜的告诉记者。
AI 加持,让 IT 发挥最大价值
人力有尽,算力无穷。
业务对 IT 越来越依赖,同时 IT 架构越来越复杂,迫使人们向 AI 求助。而 AIOps 智能运维的应用也确实给 IT 运维带来了新的变化。
以 IT 运维中最典型应用场景——故障告警为例。一个规模较大的数据中心,系统故障会导致几分钟内出现上万条的告警信息。过去,遇到这种情况,运维人员的常规处理方式关掉所有关联设备和系统,挨个重启,逐一排查。这一方法简单粗暴,不但盲目耗时,还会造成业务中断。而 AIOps 智能运维利用大数据和 AI 技术,可以在几秒钟之内就能完成对所有告警消息的压缩、筛选和关联分析,从而找出最关键的告警消息。在某航空公司的一次 IT 故障中发生了告警风暴,云智慧在一分钟内将 2 万条告警消息压缩到 7 条相互关联的关键告警。对于运维人员来说,处理 7 条告警和在几万条告警消息中发现问题,工作量不可同日而语。
在这背后涉及告警抑制、自动拓扑等多项新一代智能运维技术的应用。以自动拓扑为例,传统紧耦合的烟囱式 IT 系统,彼此之间的关联关系是很难建立起来的。而借助 AI,通过算法对采集到的调用链数据进行分析,就可以把所有 IT 系统直接的业务拓扑关系和调用过程描述出来。有了这个拓扑,才能够追根溯源的找到出问题的“罪魁祸首”。
类似应用场景还有动态阈值。传统运维都是通过设置固定告警阈值来触发报警,但固定阈值存在着明显缺点——条件太宽松会出现故障漏报,太严格则会有大量误报。此外,无论是阈值的设定还是故障的判断,都依赖运维人员的个人经验,很容易出纰漏。
“现在,我们利用机器学习的方法,通过对运维历史数据进行分析,在数据特征的基础上建立算法模型,对模型进行周期性地训练学习,从而为 IT 系统设定更为科学的动态告警阈值。这个阈值会随着业务的波动进行动态调整,既不放过每次潜在故障事件,又不会因为系统繁忙导致大量误报。 告警压缩、根因分析、关联分析等智能运维场景,都大量使用了 AI 的技术,也只有通过 AI 赋能,才能让 IT 发挥最大的价值。”刘洪涛表示。
能运维的发展路径
数字化之路千万条,智能运维第一条。
随着 ABC 技术的应用,系统维护、日常巡检等传统运维工作的价值不断降低,这也就是本文开头提到某些 IT 工程师正在被 AI 取代的原因。不过,这并不意味着运维将被 AI 取代。
“业界有一种说法,AIOps 智能运维的未来是 NoOps 无人化运维,目标是要消灭运维这个行业。但我认为这只能在单一环境下实现,对于双态 IT 占据主导的传统企业来说,AIOps 的目标应该是 BetterOps,更好、更高效的运维。”刘洪涛说,“AIOps 能预判一个事件可能导致异常,但是否存在异常,还是要人来做判定。AI 能帮我们第一时间把事件和关联的原因找出来,大幅提升运维效率,但不是消灭运维。”
标准化、规模化的横向管理工作,比如说机房里的日常巡检,未来是可以无人化的。而实现 IT 纵向管理的业务运维——让 IT 更有效支撑业务运转的工作——是无法做到无人化的。因为业务波动受大量外在因素的影响,而 IT 与业务融合之后,IT 对业务的影响程度在大多数情况下需要人来做综合判断的。
在笔者看来,业务运维与业界所提到“IT 运营”有异曲同工之意:同样都是不让 AIOps 局限于 IT 本身,还希望为业务提供更好的支撑,比如对业务系统进行预警和预测。应该说,这才是 AIOps 的核心价值,毕竟业务才能产生利润,这也符合 Gartner 的观点。