程序员:报警快把我折腾疯了
本文转载自微信公众号「小姐姐味道」,作者小姐姐养的狗 。转载本文请联系小姐姐味道公众号。
本文力求通过故事,来探讨报警的频度和功效。你有没有碰到这样的事情呢?
昨天早晨,接到电话,被臭骂一顿。
一个关键服务,发生了问题。没有人知晓这个事情,造成了响应滞后。领导语中带气:“做的报警系统有个鸟用! 什么 Promethus? 我看就是个狗屁!”
我很委屈。要是服务出了问题,肯定会被提前预知的。于是我翻了报警记录,终于在一大堆报警信息中找到了“报警信息”。
我把截图发了过去,证明自己的清白,但内心还是忐忑的。
这些报警信息,其实是给神看的,给鬼看的。就是不是给人看的。
我的思绪不由得飘向了我的自行车。
时刻警惕
为了锻炼身体,xjjdog 入手了一辆美利达山地车。广告费买的,感谢大家的点击,在此请收下我的膝盖。
每天最让人开心的事,就是看别人堵车,笛声长鸣。前不久我还在他们的队伍之中,如今我已经变成局外人。
和我相遇的最多的,变成了公路上形形色色的电动车,还有各式各样的三蹦子。它们横冲直撞,往往吓得我花容失色。
尤其是停车的时候,不小心蹭到周遭的车子,就有一辆,像碰不得的小媳妇一样,尖声叫起来。
一辆车子开始叫,带动附近其他的车子也开始叫,不一会就乱成一锅粥。
这种场景,只有在渡劫时天雷下罚,才能达到这种效果。
我希望有一位勇士站出来,质问我一下,我到底是不是窃格尔瓦,好歹给这些乱叫的报警器一个面子。
可是有更多的人从我旁边目不斜视的走过,无视这种响动。于是我释然,明白了精神领袖为什么能够屡屡得手。
瞎安什么报警器!
报警是有力的武器
为了能够实时掌握系统的状态,对一些异常情况及时响应,报警系统基本上成为了公司内部必备的组件。现在的信息推送渠道非常的多,除了微信、钉钉,还可以发送短信,甚至打电话。
公司刚普及报警系统的时候,大家都很兴奋,感觉所有 BUG 都会被机器自动解决一样,把希望全部寄托在上面。
想想看,系统的任何波动,都可以被掌控的感觉,就像是宙斯的感觉一样。每天最兴奋的事,就是在扩展显示屏上打开监控界面。看监控数据波动,就像是看股票波动一样让人着迷,着迷于你的判断力得到验证的那一刻。
“把你们的监控群也拉我一下吧!” 领导看了也比较眼馋,想要体验一下报警信息的洗礼。
这当然没问题,成果除了它本身是成果,被领导承认的成果才是真正的成果。毫不犹豫的,领导被拉进了一大堆报警群。
接下来是群成员的噩梦。
领导好像对这些报警特别的感兴趣,也特别的关注系统的稳定性。群里出现一条报警信息,很多会被领导再次截图发到群里,然后 @ 某某人:“这是什么问题,赶紧解决一下”。
“CPU 的使用超过 50% 了,有哪位同学能够处理一下”。
“Load 报警了 @xjjdog,你赶紧处理一下”。
这种事情多了,报警处理小组不太满意了,有同学和我说,”这领导太耳鼻了,不知道这是正常的波动么“。我私下里向领导反映,这都是比较正常的报警信息,就是一个提示。
”正常的报警信息!”,领导把正常和报警两个词读的很重,“那到底是正常还是异常,你们这个系统做什么用的?”
我唯唯诺诺的退了下来,脑中往事翻腾。
我自然知道将报警分级,聚合,升级,甚至不同级别的报警,通知方式也不太一样。但我还知道另外一点:报警组件,其实是内部斗争的强大武器。
很久之前有一家公司,内部就存在一个拿着报警组件做文章的人。每到了下班时间,或者很多人已经睡下了,他就开始截图一些微不足道的报警信息,发到研发的大群里,并 @他想要 @的人,督促解决。
这是杀人诛心的行为。
- 如果你不响应,群里很多人会认为你没有责任心
- 如果你认为没影响不回复,群里大多数人认为你没有责任心,长此以往人将不人
- 如果你多次不响应,你的直属领导或者更高领导会被 @,但他们往往不懂技术,你就等着电话吧
- 如果你直接回复“正常波动,没影响”,这时候如果正好碰到故障,你将会被大多数人怀疑能力有问题
- 如果你被多次 @,脾气不好,回复冲动了,你的形象将一落千丈
你权衡了一下,大多数时候,就只能老老实实的回答:”好的,我看一下“。
温馨提示:看到这个技巧,奉劝你千万不要拿报警组件做文章,否则 xjjdog 就是个罪人。
泛滥的指标
那么接下来的操作就显而易见了。眼不见心不烦,要么把领导从群里给 T 出去,要么把报警的阈值给调高,甚至别报了。我们选择了后者,因为那些无关紧要的信息,自己看着都眼烦。
就这样,报警群突然间就安静了下来,大家彼此都很满意。
时间的车轮在旋转,部门做完了年度任务,突然间也安静下来,很多人都闲了下来。喝喝茶、划划水,一天就那么过去了。领导看在眼里急在心里。
你忙的热火朝天的时候,领导是没有愧疚感的; 但一看到你竟然能够闲下来,大多数领导就开始浑身难受。口口声声结果导向,但一看你的过程舒舒服服的,就觉得你的目标定的太低。
领导对报警组件提出了质疑:“我听说把很多报警的指标都给去掉了,这怎么可以。系统的隐患要及时暴露出来,提前消灭掉!”
领导给定下指标,每台机器,每个业务系统,必须凑够 100 个监控项,把系统无死角的监控起来。
就像巨石落进水潭,盘活了沉睡的码农,恢复了往日的忙碌。无数的报警群被创建开来,信息从早到晚响个不停。大伙儿目光呆滞的盯着屏幕,或者直接将几百条未读短信批量置成已读。
这里要再看一下电动车报警器了。在某宝上一搜,产品有很多个,卖的也不错。但,这有个鸟用。
报警信息泛滥,和没有报警的效果是一样的。你的报警器就是喊破喉咙,也没人多看你的爱车一眼,因为我们早已经麻木了。
真正的报警信息,被淹没在无效报警的海洋里。系统的隐患,就这样慢慢开始腐烂,无人问津。
End
这个问题肯定是要解决的。福报来了。痛定思痛,会议确定了以下内容:
加大报警组件建设的投入力度,确保报警经过了严格的分级
所有报警信息,无论影响大小,全部需要给出处理意见,落实到人
每天早会对报警信息进行盘点,规范处方式
每周总结报警的条数、影响、改进,持续优化
我觉得这样的安排没有破绽,能够打造一支一流的队伍,你觉得呢?
“只要蛮力大,我们就不惧方法的对错!” 领导的名言貌似很有道理。
作者简介:小姐姐味道 (xjjdog),一个不允许程序员走弯路的公众号。聚焦基础架构和 Linux。十年架构,日百亿流量,与你探讨高并发世界,给你不一样的味道。我的个人微信 xjjdog0,欢迎添加好友,进一步交流。