【干货】运维中交换机的常见问题处理
在交换机已经普及到了各办公场所,商场,学校,医院等等几乎所有的需求上网的地方,各大交换机厂商也加大了研发速度,使得现今的设备在性能上更加优越,价格更加合理,也促使了交换机的普及速度。
交换机房
但同时大大增加了网络运维人员的工作难度,常常遇到各种不同品牌的不同型号的交换机,那么故障情况也各不相同,如何正确快速的找出故障并处理好呢? 笔者汇总了一下常见的设备问题供大家参考一下。
交换机故障一般可以分为硬件故障和软件故障两大类。
一、交换机的硬件故障
硬件故障重要指交换机电源、背板、模块、端口等部件的故障,可以分为以下几类。
1. 电源故障
由于外部供电不稳定,或者电源线路老化或者雷击等原因导致电源毁坏或者风扇停滞,从而不能正常工作。由于电源缘故而导致机内其他部件毁坏的事情也经常产生。
如果面板上的 POWER 指点灯是绿色的,就表示是正常的; 如果该指点灯灭了,则解释交换机没有正常供电。这类问题很容易发现,也很容易解决,同时也是最容易预防的。
针对这类故障,首先应该做好外部电源的供应工作,一般通过引入独立的电力线来供应独立的电源,并添加稳压器来避免瞬间高压或低压现象。
如果条件允许,可以添加 UPS(不间断电源) 来保证交换机的正常供电,有的 UPS 供应稳压功效,而有的没有,选择时要注意。在机房内设置专业的避雷方法,来避免雷电对交换机的伤害。现在有很多做避雷工程的专业公司,履行网络布线时可以斟酌。
2. 端口故障
这是最常见的硬件故障,无论是光纤端口还是双绞线的 RJ-45 端口,在插拔接头时必定要当心。如果不当心把光纤插头弄脏,可能导致光纤端口污染而不能正常通讯。我们经常看到很多人喜欢带电插拔接头,理论上讲是可以的,但是这样也无意中增加了端口的故障产生率。
此外,在搬运时不当心,也可能导致端口物理毁坏。如果购置的水晶头尺寸偏大,插入交换机时,也容易毁坏端口。如果接在端口上的双绞线有一段暴露在室外,万一这根电缆被雷电击中,就会导致所连交换机端口被击坏,或者造成更加不可预见的损伤。
一般情况下,端口故障是某一个或者几个端口毁坏。所以,在消除了端口所连计算机的故障后,可以通过更换所连端口,来断定其是否毁坏。遇到此类故障,可以在电源关闭后,用酒精棉球清洗端口。如果端口确凿被毁坏,那就只能更换端口了。
3. 模块故障
交换机是由很多模块组成,比如:堆叠模块、管理模块 (也叫掌握模块)、扩张模块等。这些模块产生故障的机率很小,不过一旦涌现问题,就会蒙受伟大的经济丧失。如果插拔模块时不当心,或者搬运交换机时受到碰撞,或者电源不稳定等情况,都可能导致此类故障的产生。
当然上面提到的这 3 个模块都有外部接口,比拟容易辨认,有的还可以通过模块上的指点灯来分辨故障。比如:堆叠模块上有一个扁平的梯形端口,或者有的交换机上是一个相似于 USB 的接口。
管理模块上有一个 CONSOLE 口,用于和网管计算机建立衔接,便利管理。如果扩张模块是光纤衔接的话,会有一对光纤接口。
在消除此类故障时,首先确保交换机及模块的电源正常供应,然后检讨各个模块是否插在正确的位置上,最后检讨衔接模块的线缆是否正常。在衔接受理模块时,还要斟酌它是否采纳规定的衔接速率,是否有奇偶校验,是否有数据流掌握等因素。
衔接扩张模块时,须要检讨是否匹配通讯模式,比如:运用全双工模式还是半双工模式。当然如果确认模块有故障,解决的方法只有一个,那就是该当立即联系供应商给以更换。
4. 背板故障
交换机的各个模块都是接插在背板上的。如果环境潮湿,电路板受潮短路,或者元器件因高温、雷击等因素而受损都会造成电路板不能正常工作。比如:散热性能不好或环境温度太高导致机内温度升高,指使元器件烧坏。
在外部电源正常供电的情况下,如果交换机的各个内部模块都不能正常工作,那就可能是背板坏了,遇到这种情况即使是电器维修工程师,恐怕也无计可施,惟一的方法就是更换背板了。
5. 线缆故障
其实这类故障从理论上讲,不属于交换机本身的故障,但在实际运用中,电缆故障经常导致交换机系统或端口不能正常工作,所以这里也把这类故障归入交换机硬件故障。比如接头接插不紧,线缆制作时次序排列毛病或者不规范,线缆衔接时应该用交叉线却运用了直连线,光缆中的两根光纤交错衔接,毛病的线路衔接导致网络环路等。
从上面的几种硬件故障来看,机房环境不佳极易导致各种硬件故障,所以我们在建设机房时,必须先做好防雷接地及供电电源、室内温度、室内湿度、防电磁干扰、防静电等环境的建设,为网络设备的正常工作供应良好的环境。
二、交换机的软件故障
交换机的软件故障是指系统及其配置上的故障,它可以分为以下几类。
1. 系统毛病
交换机系统是硬件和软件的联合体。在交换机内部有一个可刷新的只读存储器,它保存的是这台交换机所必须的软件系统。这类毛病也和我们常见的 Windows、Linux 一样,由于当时设计的原因,存在一些漏洞,在条件适宜时,会导致交换机满载、丢包、错包等情况的产生。所以交换机系统供应了诸如 Web、TFTP 等方法来下载并更新系统。当然在升级系统时,也有可能产生毛病。
对于此类问题,我们须要养成经常阅读设备厂商网站的习性,如果有新的系统推出或者新的补丁,请及时更新。
2. 配置不当
初学者对交换机不熟悉,或者由于各种交换机配置不一样,管理员往往在配置交换机时会涌现配置毛病。比如 VLAN 划分不正确导致网络不通,端口被毛病地关闭,交换机和网卡的模式配置不匹配等原因。
这类故障有时很难发现,须要必定的经验积累。如果不能确保用户的配置有问题,请先恢复出厂默认配置,然后再一步一步地配置。最好在配置之前,先阅读解释书,这也是网管所要养成的习性之一。
每台交换机都有详细的安装手册、用户手册,深入到每类模块都有详细的讲授。由于很多交换机的手册是用英文编写的,所以英文不好的用户可以向供应商的工程师咨询后再做具体配置。
3. 密码丧失
这可能是每个管理员都曾经阅历过的。一旦忘怀密码,都可以通过必定的操作步骤来恢复或者重置系统密码。有的则比拟简略,在交换机上按下一个按钮就可以了。而有的则须要通过必定的操作步骤能力解决。
此类情况一般在人为遗忘或者交换机产生故障后导致数据丧失,才会产生。
4. 外部因素
由于病毒或者黑客攻击等情况的存在,有可能某台主机向所衔接的端口发送大宗不符合封装规矩的数据包,造成交换机处理器过甚繁忙,致使数据包来不及转发,进而导致缓冲区溢出产生丢包现象。
还有一种情况就是广播风暴,它不仅会占用大宗的网络带宽,而且还将占用大宗的 CPU 处理时间。网络如果长时间被大宗广播数据包所占用,正常的点对通讯就无法正常进行,网络速度就会变慢或者瘫痪。
一块网卡或者一个端口产生故障,都有可能引发广播风暴。由于交换机只能分割冲突域,而不能分割广播域 (在没有划分 VLAN 的情况下),所以当广播包的数量占到通讯总量的 30% 时,网络的传输效力就会显明降落。
三、总结
总的来说软件故障应该比硬件故障较难查找,解决问题时,可能不须要破费过多的金钱,而须要较多的时间。
最好在平时的工作中养成记载日志的习性。每当产生故障时,及时做好故障现象记载、故障剖析过程、故障解决规划、故障归类总结等工作,以积累自己的经验。
比如有时在进行配置时,由于种种原因,当时没有对网络产生影响或者没有发现问题,但也许几天以后问题就会逐渐呈现出来。如果有日志记载,就可以联想到是否前几天的配置有毛病。
由于很多时候都会疏忽这一点,觉得是在其他方面涌现问题,当走了许多弯路之后,才找到问题所在。所以说记载日志及保护信息是非常必要的。