《A 君的救赎》,一份 IT 运维工程师的自救指南
前言
苦!苦!苦!
IT 运维的苦,不是两三把头发就能数完的。
要数,怎么也得四把。
IT 运维苦低效久矣。
运维江湖,一口大锅炉,吞掉了攻城狮们的头发、视力和休息。
《A 君的救赎》,一份 IT 运维工程师的自救指南
机械重复 + 手工操作,费时费力?——正常!
24 点以后通宵加班,眼红头顶秃?——大家都这样!
忙得脚不沾地,没时间洗澡?——要习惯!
设备成倍增长,人手原地踏步;公司强势扩张,运维人加班买单;准点下班就是放假,听到设备上新就会头皮发麻——IT 运维苦低效久矣。
直到一对大侠横空出世,这种积弊才得到改进。
《A 君的救赎》,一份 IT 运维工程师的自救指南
欲知大侠何许人也,请欣赏短剧《A 君的救赎》。
《A 君的救赎》,一份 IT 运维工程师的自救指南
01 第一幕
服务器监控也可以很轻松
《A 君的救赎》,一份 IT 运维工程师的自救指南
这天,A 君着手服务器故障排查,他抱着笔记本在机房里巡视,穿过一排排机柜,靠肉眼寻找故障灯,然后连接键盘显示器定位服务器故障——这个过程相当耗时,而且很容易漏掉目标,由于服务器故障排查不到位结果酿成大损失的情况发生过不少次。
A 君揉揉发红的双眼,仰天长啸:怎么才能提高服务器监控效率啊!
“嘭”地一声,大侠来了!
《A 君的救赎》,一份 IT 运维工程师的自救指南
两位大侠出手相助之后,情况就此改观。
《A 君的救赎》,一份 IT 运维工程师的自救指南
使用了 iDRAC 和 OME,A 君可以直接在 OME 的管理界面上看到被监管服务器的运行状况。iDRAC 提供 SupportAssist 功能,能够以带外方式在 iDRAC 图形界面上直接收集被监控服务器的日志与配置信息,而不需要对服务器 / 操作系统端做任何设置,真正实现免代理监控。
《A 君的救赎》,一份 IT 运维工程师的自救指南
此外,要了解某一台服务器的详细信息,A 君只需点击某一台服务器的 Name 链接,便可进入该服务器详细管理界面:
《A 君的救赎》,一份 IT 运维工程师的自救指南
还可以快速查询服务器大部分备件的详细信息:
《A 君的救赎》,一份 IT 运维工程师的自救指南
这是一台更换过内存条的服务器,从图中可以看到该服务器配置的内存均为单一品牌,没有出现混插现象。
工作过程中,有感于电脑端监控平台的不便,A 君又采用了戴尔易安信基于移动端的软件 OMM(OpenManage® Mobile)。
《A 君的救赎》,一份 IT 运维工程师的自救指南
监控服务器时,iDRAC 将产生的告警信息推送到 OME 平台上,OME 平台可以将告警信息继续推送到下一级平台(比如用户已有的统一监控平台),或者用户安装了 OMM 软件的手机、平板等移动平台上。
以前,如果有多台服务器发生故障,A 君需要在机房和 OME 监控平台之间往返多次。
如今,用了戴尔易安信基于移动端的软件 OMM(OpenManage® Mobile),A 君可以携带移动端进入机房,而不必每次都从机房返回 OME 平台前查看结果。
利用 OMM,A 君可以直接在手机上监控服务器状态。如果公司策略允许,A 君甚至能在家里或路上接收告警信息,真正做到早发现早处理,避免将小故障拖成大事故,由此大大提高了运维工作的 SLA 水平。
《A 君的救赎》,一份 IT 运维工程师的自救指南
A 君说自己的手机不能加入企业网,倒是可以试着申请个 iPAD 作为专有服务器监控工具给自己使用。
02 第二幕
摒弃手工操作,(固件)升级自动化
《A 君的救赎》,一份 IT 运维工程师的自救指南
前天晚上,公司接到了戴尔易安信 TAM(Technical Account Manager)发来的信息,建议用户立即将某一批服务器的固件升级到某个版本之上。
这个任务落到了 A 君头上。
据统计,要升级的服务器足足有三四十台之多。升级固件是纯手工操作,A 君面对巨大工作量只得发扬艰苦奋斗精神,通宵加班完成工作。
《A 君的救赎》,一份 IT 运维工程师的自救指南
不过还没完。
手工升级比不得自动化,是否会有升级不成功或遗漏的情况?
A 君对此表示:“没有记录,后半夜实在太累了,来不及统计了。先上线吧,等业务那边发现问题再说。”
“嘭”地一声,大侠来了。
通过戴尔易安信提供的 OME 软件,A 君可以自行定义服务器固件基线,并通过简单操作,完成大批量服务器的固件升级工作。
《A 君的救赎》,一份 IT 运维工程师的自救指南
OME 配置项下的固件升级界面:
《A 君的救赎》,一份 IT 运维工程师的自救指南
如图,用户可以定义固件基线,然后点击“查看报告”,对被筛选出来并选中的服务器进行固件升级:
《A 君的救赎》,一份 IT 运维工程师的自救指南
A 君抓抓稀疏的头发,揉揉眼睛说道:“好是好,不过这是不是也是得等到 24:00 以后才能操作?”
当然不用了!你可以预约呀!
OME 提供“Schedule Update”选项,可以预约升级固件时间。
《A 君的救赎》,一份 IT 运维工程师的自救指南
(固件)升级再也不用等到 24 点了,下班时在 OME 上简单点击几下,提交 job 后人就可以走了,OME 会在 24 点自动执行升级工作。
第二天,A 君通过 OME/OMM 软件检查服务器升级情况,看看是否有“漏网之鱼”。
当然,大部分服务器应该都能够正常完成升级工作,不过也不排除有少数升级失败的情况。对此不必费劲找或者等业务上线后发现,所有升级记录都会被 OME 保存下来,若存在失败情况,A 君只需按图索骥,再进行一次升级即可。
《A 君的救赎》,一份 IT 运维工程师的自救指南
这种利用软件工具实施多台服务器升级、部署的方式,能够避免手工部署中的人为差错,确保服务器部署的一致性,从而保证服务器上线前的质量。
《A 君的救赎》,一份 IT 运维工程师的自救指南
03 第三幕
人工部署一头乱麻?试试自动化吧
《A 君的救赎》,一份 IT 运维工程师的自救指南
P.s 尽管戴尔易安信服务器出厂时已经按照企业的要求对 BIOS 做了设置,公司的 IT 领导还是要求运维人员对这些服务器的 BIOS 设置做出修改。
这批服务器数量不少,A 君在机房干了整整一天,才按时完成了任务。
终于结束了,A 君长吁一口气,在机房门口又是揉腰,又是“嘎嘣,嘎嘣”扭脖子,“嘭”地一声,大侠来了。
OME 提供部署功能,用户可以通过 OME 完成诸如 BIOS/iDRAC/NIC 等服务器设置工作:
《A 君的救赎》,一份 IT 运维工程师的自救指南
现在,同样修改服务器 BIOS 设置的工作,A 君不必在机房“吭哧吭哧”埋头苦干一天,而是可以先设置好将一台服务器的 BIOS,然后使用 OME 将该机抓取为模板,再将模板部署到所有等待部署的服务器上去,这样任务就完成了。
《A 君的救赎》,一份 IT 运维工程师的自救指南
具体操作时,A 君只需下班时在 OME 上简单点击几下,预约部署时间为 24 点,提交任务即可正点下班。第二天来查看部署情况,对少数“漏网之鱼”再次部署即可。
《A 君的救赎》,一份 IT 运维工程师的自救指南
对此,A 君给出评价:以前手工改服务器配置,机器一多就乱了。现在有了 OME,真是能解决大问题。
《A 君的救赎》,一份 IT 运维工程师的自救指南
04 第四幕
自动化运维,还有很多东西可以学习
这天,A 君打开了戴尔易安信的网站,一边看电脑一边在本子上记着东西。
同事问道:“你在干什么呢?”
A 君:“学习呀,我了解到,戴尔易安信目前是提供服务器 Restful API 方面最积极的厂商。不论是服务器管理卡 iDRAC 还是 OME 软件,他们都有提供丰富的 Restful API 接口。”
《A 君的救赎》,一份 IT 运维工程师的自救指南
同事:“你在学习 Restful API?”
A 君:“是啊,Restful API 采用 https 协议,输出格式为 JSON,无需转化即可很方便地被第三方软件集成。又很多用户采用戴尔易安信 Restful API 与 Zabbix 软件集成,打造自己的现代化监控的平台,我也得学习学习。”
笔者:“有资源吗?”
A 君:“要不说戴尔易安信很棒呢,戴尔易安信提供了丰富的 Python 脚本供用户调用,来打造自己的现代化监控平台,而且也在网站上放了 Restful API 知识呢,这就是链接。”
1.Python 脚本,用户可移步以下链接下载:
https://github.com/dell/OpenManage-Enterprisehttps://github.com/dell/iDRAC-Redfish-Scripting
2. 更多戴尔易安信 Restful API 知识,可至以下链接了解更多:
https://www.dell.com/support/article/us/en/19/sln310624/redfish?lang=en
《A 君的救赎》,一份 IT 运维工程师的自救指南
戴尔易安信 RestfulAPI 知识库截图
同事:“哇,这个不错。”
A 君:“是啊,服务器数量与日俱增,传统的 IT 运维人员和 IT 运维方式压力山大,咱们这些 IT 运维工程师要尽快掌握更多 IT 管理工具,提高自己的技能和 IT 运维水平,才能更好地适应企业发展,才能不被时代淘汰,而且我们慢慢掌握运维工具,将它们熟练运用到大规模服务器管理的过程中的同时,也提高了自身的价值。”
同事:“加油,一起努力吧!”
《A 君的救赎》,一份 IT 运维工程师的自救指南