是时候该读懂运维监控体系了

首先我们要明白监控到底是为了监控什么,目的主要包括以下几个方面:(1)对目标系统进行监控;(2)监控目标系统开展情况,各硬件、软件等是否正常;(3)监控目标系统的业务是否能稳定运行,有问题能得到及时的反馈和处理。

其次,我们目前用到的一些监控方法包括:知己知彼(了解监控对象)、确定指标内容、明确个指标定义以及处理故障流程,其最终的目的是为了能在监控中发现问题、定位问题、解决问题以及总结问题,避免后续出现相同的故障。其监控流程只要包括通过工具,如 SNMP、SSH 等进行系统数据的采集,将数据存储到数据库中,对所采集的信息进行分析,以便了解故障的出处,最终需要将已定义的指标进行展示,最后通过报警找相应的运维人员快速处理。

目前用到的一些监控工具包括:amokeping、Nagios、smartping、Nightingale、OpenFalcon、Zabbix、Cacti、监控宝、newrelic、Lepus。

最后,其硬件监控包括通过 SNMP 来进行路由器交换机的监控,其他内容使用 IPMI 实现。其服务监控包括多种分类,其中安全监控可以使用硬件防火墙或云服务直接用云安全组;自定义方法获取数据,包括 Redis info 指令信息以及服务自带的一些工具进行监控。

了解运维监控体系能帮助我们更好的协助以实现一定的目的,通过这样的手段让我们对业务有更详尽的了解,希望可以在读完之后能收获一点东西,期待以后各位更好的发展。