【网络】运维工程师必备技能热谈

随着业务的扩大,资产管理、人员信息、设备配置、日志审核等就是我们面临的问题。只有解决了这些问题,才能实现高效安全的运维管理,所以企业需要个统一、提高效率、降低各种开销的平台。

另一方面这种可视化的平台也是运维的一个很好的价值体现,运维早已经不再是抬机器的时候了。

今天,我们准备了四个问题让网友就此展开讨论。

1. 可以聊下的运维价值、运维的体现

2. 运维平台所应用的技术,比如 django、nginx、bootstrap

3. 运维平台以及各模块设计,比如程序自动化发布、cmdb、审计、监控等

4. 在使用过程中遇到的问题,比如查询数据量很大的时候….

作为一名企业网络工程师,主要谈谈以下内容:

1、IT 运维不仅局限于降低成本、提高质量和管理风险的三个传统的角度,要更加关注灵活性,帮助业务适应外部环境或者内部调整带来的变化,打造核心竞争力。

企业应强化 IT 组织,实现垂直管理,优化岗位设置,提高组织效率,健全 IT 内部与外部流程,实现标准化服务。IT 要以业务为根本,规划研发、生产、营销等关键环节的信息化建设。

2、这些都是宏观理念,最终还应落到实处。要说的是大部分企业的运维工作还处于救火阶段。虽然有大量运维自动化工具或系统出现,但这些工具功能比较分散,集成度不高。就目前我在企业网络运维遇到的问题来说,基本每天在做重复的工作或者是非常琐碎的工作,自动化程度不高。对自己来说没有时间提高自己,对企业来说没有创造很大的价值。所以就在想自己负责的领域能否更智能一些。就发现现有工具都只监不控,控的环节靠人来做,并且标准和流程不完善,没有形成沉淀,更谈不上发展。日积月累的脑力记忆成为企业 IT 最高的风险。

3、单就网络运维来说,涉及网络资产管理、配置管理、风险评估、报修管理、知识案例库等等。这些功能毫无疑问都可以实现,但是很少有系统能把他们集合起来。我希望从网络设备部署开始,直至寿命结束退役为止,全程都可自动化、智能化。比如资产变更可以跟踪,不只是单纯有一个账目表明我有这个资产;有系统版本 bug 修复记录和更新建议;有适应我企业的配置标准和基线,智能分析网络系统性能状态,提前预警;运维投入,IT 预算有据可查;灵活输出报表等等。

运维的价值是毋庸置疑的,线上的环境是巨复杂的环境,我们需要运维能及时处理这些。

但是现在对运维角色的定义不是很清晰,我们普遍认为运维主要职责有:环境的配置及调优,规范的上线流程,技术方案的落地,靠谱的升级方案以及迅速的故障处理机制等。

但其实可以划分为下面几种职能:

1. 应用运维:负责支持线上业务,主要保障线上业务系统稳定

2. 运维开发:开发便捷的工具,提升运维团队工作效率

3. 系统运维:负责操作系统定制及优化,IDC 管理及机器交付

4. 监控运维:负责发现故障,并第一时间通知相关人员,配合处理故障

5. DBA 和安全团队

虽然划分的比较细致,但是很多时候多项职能集于一身。

运维平台所应用的技术,应用的技术有很多。可以简单分为以下几类:

1. 监控预警系统:Nagios、Zabbix、Cacti 等,也包含自己开发的一些监控系统以及云监控平台;

2. HA、LB:Nginx,Keepalived、Haproxy、LVS 等,开源的有很多

3. 运维开发工具栈:django、Nginx、Python、Lua 等

1. 可以聊下的运维价值、运维的体现

做 linux 运维也有四年时间了,感觉运维的核心工作还是保证服务器或者虚拟机资源的稳定运行,网站上线时,就得大晚上的不睡觉,在那 standby。手机还不敢关机,生怕报警了,没有接到 helpdesk 的电话,第二天又被批评一顿,哎,运维就得随时待命

2. 运维平台所应用的技术,比如 django、nginx、bootstrap

这几个一般都不用啊,难道是我们公司太 low 了?管理 dns 和 ldap,整个 webmin 就好了,也挺方便,监控的话整个收费版的 nagios 就好了

3. 运维平台以及各模块设计,比如程序自动化发布、cmdb、审计、监控等

4. 在使用过程中遇到的问题,比如查询数据量很大的时候….

目前去过三家公司,还没有遇到过一个完整的运维管理平台,顶死了就是一个监控平台,openstack 算是一个管理平台,但只针对上面的虚拟机的,传统 x86 服务器也管理不了

现在很多公司都往云计算方向发展,要么购买公有云的资源,要么自己搭建私有云,搭建私有云的一般都是有一定实力的公司了,而公有云的使用,一般只要一名运维工程师就可以管理了,有时,非运维类人员也能管理,因为大部分技术工作都有公有云平台解决了,所以,感觉运维的趋势就是往自动化运维方向发展了