谷歌「机架轮子坏掉了搞砸冷却系统」导致 CPU 性能受到遏制

谷歌表示,压坏的服务器机架轮子搞砸了冷却系统,导致 CPU 性能受到遏制。

谷歌的工程师发现后轮的小脚轮坏掉了,最终导致机器过热

谷歌表示,一组用于移动服务器机架的轮子压坏引发了连锁反应,结果导致一些用户无法正常使用搜索、Gmail 及其他服务。      

其中一个数据中心的一批服务器开始温度过高,以至于 CPU 被自动遏制,而事后查明根本原因是一组机架轮子承受不住谷歌的云设备的重量。

谷歌云解决方案架构师 Steve McGhee 表示,谷歌用户“极有可能”不会注意到机架轮子压坏所引起的错误。但是一连串事件导致 CPU 的性能受到严重遏制,从而导致“用户伤害”。

所幸的是,这起事件不如去年 6 月的那起事件来得严重,那起事件是由谷歌的自动化软件出现故障引起的,导致了 Gmail、YouTube 和客户的应用程序随之崩溃。那起事件促使谷歌向客户郑重道歉,并承诺将来会做得更好。

这回谷歌决定向公众表明它是如何不遗余力地找出故障的根源,哪怕这些故障并没有对用户造成明显的影响。

最近一名站点可靠性工程师注意到边缘网络上用来缓存用户频繁访问的内容的机器出现错误激增后,谷歌开展了调查,这次事件因此浮出水面。这些机器立即被停掉,防止它们影响客户,让其他机器可以收拾残局。

谷歌工程师注意到了一些边界网关协议(BGP)网络错误,但它们的特征表明问题出在机器上,而不是出在路由器上。进一步调查发现,边缘网络上的机器中的内核消息显示 CPU 时钟频率受到遏制。

工程师们发现,故障系统被隔离了在单个机架上的机器上。所有这些调查都是远程进行的。工程师们无法解释为什么机架过热到足以引起内核错误,于是要求谷歌的现场数据中心工作人员切实检查一下出问题的机架。

不久后,数据中心团队报告了一条简短消息以及显示机架轮子被压坏的图片。

冷却装置严重倾斜也表明机架底部出了问题

该团队解释道:“您好,我们已检查了机架。原来是后轮的小脚轮坏掉了,正由于发生倾斜,机器过热。”

McGhee 说:“由于承受不住满载机架的重量,支撑机架的轮子(小脚轮)被压坏了。”

“然后机架实际上向前倾,因而干扰了液体冷却剂的流动,导致一些 CPU 过热,最终性能受到遏制。”

目前尚不清楚为什么车轮被压坏,但谷歌工程师担心这可能是一个更广泛的问题,于是他们换掉了容易出现车轮坏掉导致倾斜这同一个问题的所有机架。

这个问题已促使谷歌重新考虑建造数据中心时如何将新机架移入到数据中心。