互联网运维要向银行运维学什么?
2015 年的携程删库事件,我写过一篇《深入解析和反思携程宕机事件》。这几天的微盟删库也引起了运维圈的热议,本来不想再重复之前的观点,但结合与互联网圈、银行圈运维同仁们的交流,突然有一个强烈的想法:互联网行业的运维真应该学学银行了。
互联网运维出现过无数次宕机事件,原因可归为三类:
- “手一抖”为典型的误操作;
- “应用、系统、底层微码出错”的软件瓶颈 Bug;
- “挖断光纤、电力中断、太阳黑子爆发”等典型的不可抗力。
但这次微盟事件截然不同,这是第一次引起严重破坏的人为恶意破坏事件,互联网公司的 CEO 都要倒吸一口凉气,这事搁在哪个互联网公司身上都扛不住。
2011 年我从互联网运维转到银行运维之后,一开始非常不适应,感觉完全是两个体系,各种流程的制约导致效率很低。但后面慢慢的理解了这些规则的意义,也见证了这几年银行全面学习互联网,从原来的稳态运维向双态运维的积极转型。
今天,银行在积极拥抱互联网、学习互联网的海量运维之道,那互联网运维要向银行运维学什么呢?
1、CEO 要亲自抓“业务连续性”
互联网行业对于技术常说的一句话是“开着飞机换引擎、高速公路换轮胎”,这里面透着对于技术支撑业务高速发展的自豪,但是成功的背后是一次次的宕机,通过不断试错和快速恢复才慢慢支撑过来。这样的代价在业务早期还能支撑,在互联网成为基础服务的今天,代价越来越无法承受。疫情之下,互联网业务的中断,已经不是一家公司的事情,而是成为了影响国计民生的大事件。
银行一直特别重视业务连续性管理,把业务连续性上升到承担社会责任的高度。大家可能不知道的是,银行关键系统故障超过 2 小时要报银监会,超过 4 小时要报国务院。在这样的压力下,才催生出“两地三中心灾备体系”、“高冗余”、“应急切换”等业务连续性解决方案。互联网公司的 CEO,需要把业务连续放到和业务增长同样的高度来看待。
2、CTO 正确看待”稳定运维” 和 “敏态运维 ”的利弊
银行是稳态运维的代表,互联网是是敏态运维的代表。大家都知道稳态的优点是安全,代价是不敏捷,但潜意识里面认为互联网运维的敏态是既敏捷又稳定,敏态比稳态更加先进。
但事实上,** 敏态是在效率和安全上寻找平衡点,这个平衡点往往和互联网的风险意识以及投入是相关的,** 大部分敏态运维没有考虑一些极端情况。另外,互联网运维经常宣传的一个人运维几十万台服务器,也是有一些误导效应的。场景不一样、安全要求不一样的情况下,单纯对比运维的人效是没有意义的。
3、数据中心负责人不但要保安全,还要防风险
互联网的安全部门,银行数据中心叫风险管理,虽然安全和风险的职责类似,但是含义不同。互联网强调的是对安全事件的快速响应和快速处置,更多情况下安全还是防范外部风险。** 银行的风险管理,则是默认认为人是不可靠的,防范内部风险和外部风险同样重要。** 风险管理、安全响应、内审、外审,尽量实现岗位和人员之间的相互制约。风险无处不在,业务跑的越快,面临的风险就越大。
4、不要通过技术手段解决管理问题,承受必要的管理代价。
必须承认,微盟的事件,技术上是无法预防的,最多只能降低损失。互联网公司默认运维人员必须 7*24 小时待命,VPN 是和笔记本电脑一样的办公标配,随时随地可以接入生产环境操作。
** 银行则是严格执行开发和运维分离,生产网和办公网分离,root 权限按需申请,在特定的在 ECC 机房使用特殊终端才能操作,变更操作需要双人复核,开通 VPN 需要申请、说明理由并指定时段等等,** 这一系列措施都是银行一直以来默认的规则,导致很多银行运维人员很难理解为什么会发生微盟这样的事件。代码会有漏洞,人是不可靠的,物理上的限制和流程上的控制,虽然会降低效率,但是只有技术和管理并重才是双保险。
5、运维开发和运维操作的团队必须分离,重视运维平台的非功能需求。
互联网早期的运维开发都是运维人员兼职,自己给自己做工具,追求的是效率和灵活,都觉得自己做的鞋最合自己的脚。但是这样的问题是,运维人员既当运动员又当裁判员,对风险防范、性能等非功能需求缺少考虑。随着人员和规模的扩大,潜在风险越来越高。
** 运维平台的本质是管理工具,需要固化管理策略和风险防范来约束人员的行为,** 抵御黑天鹅事件。设置独立的运维开发团队,同时面向管理员和管理者,兼顾效率和风险的需要,是互联网公司运维平台的发展方向,毕竟不稳的情况下快是没有意义的。
最后,结合十五年互联网和银行的运维经验,我想说:稳态和敏态,银行运维和互联网运维并不是对立的,而是在不断融合。银行从关键系统向海量系统演进,互联网系统从海量系统向关键系统演进,最后是殊途同归,目标、思路和方法论都同样适用。银行开放的学习互联网,互联网也应该积极学习银行,不要过于自信。金庸先生《倚天屠龙记》中一段飞禽和狮虎的比喻说的好:
张无忌学会乾坤大挪移心法后,武学上的修为已比他们均要高上一筹。但说殷、宋二人的招数中颇有破绽,却又不然。张无忌不知自己这么想,只因身负九阳神功之故,他所设想的招数固能克敌制胜,却往往实际难能,常人万万无法做到,也不是比殷、宋二人更妙更精。正如飞禽见地下狮虎搏斗,不免会想:“何不高飞下扑,可操必胜?”殊不知狮虎在百兽之中虽最凶猛厉害,要高飞下扑,却力所不能。张无忌见识未够广博,一时想不到其中缘故。
本文作者,云霁科技创始人智锦,曾任支付宝运维部创始成员、国有银行云计算负责人,关注于云计算和金融科技的结合。
(免责声明:本网站(https://c.shenzhoubb.com)
内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。)