IT 运维背后的真相
IT 运维和维护是一项复杂的任务。要做好操作和维护工作,你不仅要知道它是什么,还要知道原因。卖什么吆喝什么,要明白这个问题必须从为什么要开展业务开始。
IT 已成为构成现代企业的众多要素之一。
对于互联网公司来说尤其如此,互联网公司不仅在 IT 系统上建立自己的业务,而且 IT 系统也是他们自己业务的体现。今天的许多网站、应用程序可以看作是 IT 系统。
当前的 IT 系统正变得越来越复杂,依赖于各种软件和硬件、网络的支持。想象一下,如果我们建立一个 IT 系统,但没有人会管理它。答案是它应该正常运行一段时间,然后会有各种问题最终会失败。原因很简单。 IT 系统所依赖的硬件,软件和网络组件不可能 100%可靠,并且系统中有许多需要手动干预的链接。
互联网的出现给 IT 系统增加了新的问题。这个问题就是性能。传统 IT 系统的负载相对稳定。是可预测的。在互联网上为公众服务的 IT 系统将没有足够的性能,并且由于突然访问而无法提供服务。以 12306 为例,因为系统负载被低估,导致系统初始阶段频繁无法访问。
正如我们前面提到的,IT 系统已经成为现代企业的一个因素,并且大量业务基于 IT 系统。一旦元素失败,公司的业务就会失败。因此,企业不仅要构建 IT 系统,还要使 IT 系统正常运行。这是公司需要 IT 运营的根本原因。
要做好 IT 运营,您必须了解一些基本事实:
所有 IT 组件(软件,硬件,网络)都存在问题;
人们犯错误;
所有系统的阈值都不能超出使用阈值;
业务在发展,系统在不断发展,技术在不断发展;
企业中的所有行为都是昂贵的,无论是明确的还是隐含的。
所有操作均围绕上述事实进行。
这是最重要的一点:IT 系统需要运营和维护,但运营和维护的目标是什么?该系统应在何种程度上运行和维护
这个问题经常被技术人员忽视,而且往往是技术决策和执行层面造成暴力冲突的地方。企业有自己的目标,分为几个阶段,分解为各个子目标。
IT 系统的运营和维护是子目标之一。由于每个子目标都是从总体目标中分解出来的,冲突在哪里?
例如,我们可以解释:“我们的 IT 系统需要稳定、是可靠的、是安全的,并且它不会花费更多。”稳定的、可靠的、安全性是一个子目标,成本是一个子目标。这两个目标是相互矛盾的,因为系统必须是稳定的,是可靠的、更具成本效益。通常在企业成本控制和 IT 运维中由两个团队进行。两支球队将能够为各自的目标而奋斗。原因是这个问题没有得到很好的处理。
那么多少合适呢?
简而言之,IT 运营和维护的目标必须与公司的业务目标保持一致。超越企业目标并且未能实现企业目标是有问题的。有些朋友可能认为当然存在问题,但是表明工作做得好还是比公司目标好吗?答案是溢出部分成本高昂,而这部分溢出的成本是企业的损失。所以溢出也是有问题的。
“IT 运营和维护的目标必须与公司的业务目标一致”根本不够。具体实施需要很多指标让公司了解,例如保证 58 或保证 724,最长的停机时间是多少?有维护窗口吗?服务降级了吗?核心思想是评估系统不可用性对业务的影响程度,然后根据具体约束进行设计,以满足业务需求。
一般来说,主要有两个指标要研究,一个是最长的不可用时间,另一个是不可用的频率。这两个指标基本上反映了系统的可用性。
时间长短不容易理解。如果不可用时间很短,那么有点严重吗?实际上,以 12306 为例,系统不可用的时间非常短,就是次数多了点。就像在“红楼梦”中一样,虽然贾母虽然很喜欢黛玉,但她终于让宝玉娶了宝钗。偶尔生病可以接受,但总病情不好。
总结一下
为了做好操作和维护,我们必须知道运营和维护的目标是服务于企业的业务目标,并且必须与之保持一致。与目标一致的并不是说,运营和维护目标需要由一组特定的指标来表示,然后衡量目标是否与企业的业务目标一致。