2020 年的 IT 运维:准备好五件事——从 AIOps 到多云等等

数字颠覆的威胁迫使高级管理人员和技术领导者重新思考商业模式、数据资产和分发渠道,以创造更多的创新产品和服务,从而使客户满意并赢得竞争。在过去十年中,企业已经彻底改变了他们构建、部署、管理和维护关键任务服务的方式,以应对日益增长的数字化。

开发人员通过采用创新技术和实践来应对企业转型的挑战,包括公有云服务的使用,敏捷和 DevOps 的快速软件交付,从单体开发模式向微服务开发的转变,以及流程创新的机器学习模式。

IT 运维团队历来通过最小化变更和避免中断来确保企业工作负载的可用性和性能。鉴于数字化业务的需求,数字化运维团队需要利用已有的和新兴的技术趋势来推动产品发展,提供出色的用户体验,并确保长期的企业生存。

2020 年,IT 运维团队需要接受五个转变,以扩大创新并有效应对数字化颠覆。

在 2009 年 Velocity 会议上,John Allspaw 和 Paul Hammond 在 Flickr 上展示了《10+ Deploys PerDay: Dev and Ops Cooperation》,展示了企业如何通过自动化基础设施工具、持续集成和部署流程以及共享指标来加快发布速度。这一演讲开启了 DevOps 运动,呼吁开发和运维团队之间建立信任、协作和问责制的新模式。

十年后,DevOps 得到了广泛的主流采用,网站可靠性工程师和 DevOps 专家成为 Stack Overflow 2019 年开发者调查中收入最高的人。DevOps 是实现业务敏捷性和减少摩擦的关键——Gartner 预测,到 2020 年,全球 100 强企业中有 90%将通过 DevOps 实践提升运维效率。麦肯锡最近的一项研究发现,很少有企业高管认为“IT 在促进强劲业务表现做出了有意义的贡献。“

这些趋势可能会促使 DevOps 团队主动参与数字化体验产品,从而获得更多预算和更大的影响力。这是否意味着 IT 运维部门必须满足于管理遗留应用程序和基础设施组合?

要点:IT 运维不仅需要关注传统的可靠性、弹性、安全性和效率,还要关注发布速度、持续改进和以客户为中心。IT 运维的创新可以支持数字化转型,并确保 DevOps 的新速度不会使业务面临风险。

IDC 最近的一项研究发现,IT 运维团队是人工智能工具的最大买家,用于快速模式识别、无缝事件协作和更快解决问题。2020 年是利用机器学习和数据科学的力量,进行主动和预防性事件管理的时候。现代 AIOps 解决方案可以通过以下方式大幅减少识别、日志记录、分类、确定优先级、响应和关闭事件的人工时间:

——分析和处理不同监控工具中的各种事件,以便自动抑制重复和噪声警报

——使用机器数据智能来预处理警报“风暴”,加快根本原因分析并减少服务中断

——通过 IT 服务管理工具的双向集成,向 on-call 的服务交付团队发送实时的上下文警报

——使用自动修复解决大规模的常规事故,以便运维人员可以专注于高价值的业务项目

要点:数字化运维团队应该开始试行 AIOps 计划,以了解机器学习驱动的事件管理如何减少在事件检测、首次响应、警报优先级排序和根本原因分析上花费的人力时间。

Flexera 的《2019 年云状态报告》发现,84%的 IT 领导者使用五个不同的云提供商作为其企业云战略的一部分。鉴于 AWS 就在 23 个产品类别中拥有 170 多个独特服务,因此跨云平台管理不同的云服务并非易事。那么,多云采用背后的驱动力是什么?

考虑到 AWS 在云基础设施即服务市场占有 35%市场份额的主导地位,CIO 们希望与其他云提供商(如微软和谷歌)合作,以防止云锁定。选择多云平台的另一个原因是 451 Research 所说的针对特定类型的业务工作负载选择正确的云环境,以便 IT 团队可以针对性能和成本进行优化。

以下是云团队在部署多云企业战略时需要仔细考虑的三个因素:

——资源复杂性:云基础设施团队需要跨数千个云 SKU 实例为工作负载选择正确的实例类型。挑选和优化适当大小的实例是一项持续性的任务,需要根据架构、需求、性能、弹性和成本进行艰难的权衡。

——多云监控:虽然有大量的原生监控工具,如 Amazon CloudWatch、Azure Monitor 和 Google Stackdriver,但这些解决方案都有一定的局限性。企业应该投资开源工具(Prometheus / Graphite、Grafana)或第三方监控工具,因为这些工具可以轻松地集成、捕获和呈现来自多云环境的洞察。

——将 FinOps 嵌入云计算中心:跨实例类型和定价模型(按需、专用、现场和保留)优化云成本是一项复杂的工作。FinOps 的出现通过汇集优化云支出的最佳实践,帮助企业更好地规划和预测云预算。FinOps 提供了一种新的采购模式,强调跨技术、财务和业务团队的云财务管理的责任共享,以便企业获得更好的云投资回报。

要点:企业 IT 团队应该向 FinOps 先驱者学习如何在云服务的成本、性能和弹性之间做出正确的权衡。云架构师应该同时尝试开源和商业监控工具,以了解它们如何推动实时可见性并确保更快地响应多云运维。

企业数据中心越来越多地吸纳公有云基础设施的属性,包括按需使用和按使用付费的定价模式。以下三个趋势清楚地表明了数据中心在云时代的发展方式:

——混合云模型:很长一段时间,公有云平台拒绝承认某些工作负载由于延迟、安全性或合规性要求而只能在本地运行。不过,云提供商现在公开表示认同混合云价值主张——Azure Stack 于 2017 年推出,AWS Outposts2018 年推出,Google Anthos 于 2019 年推出。混合云解决方案允许企业在其数据中心内运行工作负载而不用担心云服务提供商过线。

——基于使用的基础设施模型:企业可以利用一系列创新解决方案(HPE GreenLake、戴尔 Flex on Demand、联想 TruScale Infrastructure Service 和思科 Open Pay),来实现灵活的数据中心资源支付模式。IT 团队可以控制资本支出,使用最新硬件,跟踪实时使用情况,并将管理外包给 OEM 或托管服务提供商,使自己能够完全专注于业务成果。

——编写一次,就可以在任何地方运行编排引擎:像 Kubernetes、Docker Swarm 和 Apache Mesos 这样的容器编排引擎已经大受欢迎,因为它们允许 IT 团队在任何地方运行云原生服务,并为构建和扩展分布式应用程序提供一致的管理框架。可以使用容器编排引擎跨数据中心和云环境部署云原生服务,确保高度可移植性、更快的发布速度以及通过抽象基础设施实现更好的运维控制。

要点 :数据中心已经成熟,IT 团队应该将涉及设计、部署、监控和维护任务关键型基础设施的繁重工作外包出去。数据中心管理者应与超大规模和 OEM 提供商合作,以充分利用混合云和基于使用的模式所带来的功能和灵活性。

IDC 预计,到 2022 年,涉及新兴技术技能的 IT 角色中有 30%将一直空缺。最近的一项调查发现,94%的 IT 决策者发现招聘 DevOps 专业人员、云原生开发人员和多云运维人员困难。颠覆性技术趋势使得 IT 运维团队必须不断提升技能以保持相关性。

云原生基础设施的普及需要在生命周期自动化和配置、可观察性和分析以及安全性和合规性方面的一系列新技能,以推动可靠和可扩展的应用程序。

采用 AIOps 解决方案需要熟悉高级统计技术的 IT 从业人员,并能结合数据驱动的洞察力和人性直觉,以减少应用程序停机时间并确保更快的恢复。

要点:CIO 需要大力投资技能发展计划,以吸引和留住员工。IT 领导者将使用内部项目、实践学习和外部提供商的组合来弥补技能差距。

结论

在一个变化是唯一不变的世界中,IT 运维需要变得越来越主动和动态,以满足业务需求。技术运维管理将成为一门更新的学科,其中创新只受想象力的限制。