探秘 K1 Power:如何打造一台坚若磐石的高性能小型机?

熟悉服务器领域的朋友,必然对浪潮 K1 小型机或多或少有所了解。在当年关键业务主机市场寡头垄断的格局下,浪潮 400 多位工程师耗费 4 年时间,于 2010 年成功研制出了 K1 小型机,为市场注入一股新的血液。使得中国成为除美国、日本之外全球第三个具备关键应用主机研制能力的国家,浪潮也成为全球第五家具备关键应用主机研制能力的企业。

经过多年的发展,K1 小型机获得了市场的广泛接纳与认可,受到来自金融、交通、政务、能源、医疗等众多关键行业客户的青睐。与此同时,K1 家族产品也不断升级迭代,持续以强劲性能与灵活可靠的特性,支撑其客户关键业务应用的高效平稳运行。

而随着 2018 年浪潮与 IBM 的合资公司——浪潮商用机器的成立,K1 的发展路线图中更是出现了 Power 的身影。于是,国产关键业务主机的先行者 K1,进入了一个新的发展阶段。浪潮 K1 小型机领先的核心技术与系统设计理念,再加上 Power 处理器强大的性能表现,浪潮商用机器 K1 Power 系列服务器由此诞生。

浪潮商用机器有限公司副总经理黄家明

据浪潮商用机器有限公司副总经理黄家明介绍,浪潮商用机器分别在北京、济南两地建立了 Power 系统研发实验室,都配备了专业的电子设计自动化工具 (EDA)。K1 Power 研发团队目前有上百位核心人员,均来自于浪潮 K1 小型机研发团队,拥有 10 年以上高端服务器设计经验,是目前国内高端服务器研发领域最优秀的团队,具备从系统原理到主板 PCB 设计的全流程设计能力。此外,实验室还配备了顶级硬件研发测试平台,以快速诊断问题,保障产品的高可靠性。

那么,K1 Power 服务器究竟是怎样炼成的?其卓越的性能与可靠性背后是哪些关键技术在做支撑?在有幸参加了浪潮商用机器“探秘 K1 Power 研发之旅”活动之后,笔者终于对此有了一个大体的了解,下面就一一为大家揭秘。

高速内核——POWER9 带来卓越的性能表现

服务器的性能表现自然取决于 CPU。与 X86 处理器相比,最新的 POWER9 处理器具有显著的性能优势,可以说就是为应对数据密集型工作负载、满足严苛的高性能计算需求而生。

上图是 Power 9 与 X86 处理器的横向对比,我们可以看到,从主频到带宽,POWER9 均能够提供两倍以上的性能提升。与绝大多数 X86 处理器不同,POWER9 支持最新的 PCIe 4.0 以及 NVLink2.0 协议,以此带来极大的内存与 I/O 带宽优势,加速 CPU 与 GPU 间的通信,满足更高的应用负载运行要求。

像 K1 Power 这样的中高端服务器,通常用于承载组织的核心数据库应用,因此在判断其性能优劣时,对数据库负载的支持是一个很好的依据。据浪潮商用机器有限公司产品研发部副总经理尹宏伟介绍,在实际测试中,K1 Power 服务器对于 EDB、DB2 和 Oracle、SAP 等商业数据库以及 MySQL 等开源数据库,都能带来相对 X86 服务器两倍以上的性能提升。

此外还有非常值得一提的一点,是 K1 Power 对计算资源的高利用率。由于 K1 Power 服务器具备强大的性能,因此可以在单台服务器中以分区的形式满足更多应用负载——作为对比,x86 服务器往往是一台服务器运行一个应用,通过部署更多服务器来运行更多应用。因此在实际运行时,K1 Power 服务器的整机硬件负载效率更高,资源利用率更高。

极致可靠——全栈可靠性设计理念,保障业务持续运行

对于 K1 Power 服务器而言,在提供优越性能的前提下,保证整个系统的高度可靠是一个同样重要的课题。K1 Power 服务器系统的可靠性设计遵循高 RAS(可靠性 Reliability、可用性 Availability、可服务性 Serviceability)特性理念,此外还加入了独立的服务处理器 FSP,全方位侦测潜在故障,帮助及时修复,确保系统持续平稳运行。

K1 Power 系统全堆栈可靠性设计包括:冗余、捕获、重试、隔离、修复。针对每一个环节,都通过领先的技术保证有效性,从而在整体上提供高达 99.9994% 的可靠性。

**·** 冗余。K1 Power 服务器通过冗余设计保证系统持续运行:1、在硬件上,包括 DRAM 内存芯片、CPU 与内存 /CPU 与 CPU 之间的链路等都是冗余的;2、每个系统控制单元中有两个冗余的时钟卡,当任意一个时钟卡出现故障,另一组时钟可以无缝切换;3、电源时序控制信号如 Enable,Power good 等做冗余设计,能实现更加可靠的电源开关控制;4、电源稳压模块(VRM)实现 N+2 冗余设计,以减少单点故障率;5、K1 Power 系统关键部件如电源、 SMP 线缆、时钟、FSP 模块、I/O 控制器等全部冗余设计。

**·** 捕获。K1 Power 服务器装载了多达 16 万个故障检查器,可以实时监测系统运行状态。此外,还采用首错数据捕获(FFDC,First Failure Data Capture)的机制,在设计阶段就进行错误模拟,在实际运行阶段进行错误捕获。而发生错误之后,还可以在维护阶段进行错误重现。将所有可能产生的错误提前做到预警、备案和处理。

**·** 重试。通过校验与重试设计,让软错误不影响整体系统运行。除了内存或者缓存本身的纠错机制外,K1 Power 服务器还设计了重试机制,判断某个故障是不是偶发性的。其中,内存的控制器或指令集的重试机制,是 Power 服务器特有的。

**·** 隔离与修复。在发生故障时,K1 Power 服务器可实现细粒度的隔离,如单个 CPU 核心隔离,逻辑内存块隔离。x86 服务器 CPU 内部某一个区域或某一个功能发生故障时,往往整个 CPU 就会故障。Power 处理器可以将发生故障的核心单独隔离,同时处理器能继续工作,从而实现在线修复 / 更换。

钢铁之躯——高品质工艺,更严苛的标准与测试

服务器的高可靠性的实现不止依靠系统设计,同样还取决于优秀的制造工艺。K1 Power 服务器采用了严格的元器件和部件选型标准,并在极限环境下进行严苛的测试,力求打造高品质平台。从物理层面上,进一步提升系统整体可靠性。

由于 POWER 处理器都是高速信号,因此为了保证信号在 CPU、内存、I/O 以及加速器之间传递的稳定性,K1 Power 服务器采用了高达 40 层的高复杂主板设计,所有与高速信号走线层相邻的平面层都是地平面,保证高速信号良好的完整性。此外,主板也需经过更严苛的板机测试,以保证 100% 可靠出货。

在散热方面,K1 Power 服务器采用了更高效的散热设计和散热管理。其导热材质选用铟金属片,将导热效率提升了近 10 倍。而且铟金属片相对于传统 x86 采用的导热膏来说,导热稳定性更强,保障长期使用。K1 Power 服务器散热管理采用了动态分区散热控制技术。这种动态、智能化的散热控制,既提高了散热的利用效率,也保障了 CPU 等元器件的寿命以及性能稳定。

K1 Power 服务器采用了高标准的检测,生产测试功能覆盖率 100%,高端机型测试大项共计 660 多项,同时测试老化时间达到 48 小时以上。通过自动化的测试系统,确保每台机器的检测的有效性。基于严苛的测试环境,确保每台服务器都能够在极限电压和动态频率下稳定工作,保证品质达到业界最高水准。

不惧威胁——自下而上的安全加固,保护业务数据

在关键业务场景下,系统安全性是至关重要的。K1 Power 服务器在系统安全方面也进行了充分的考虑,支持多种国际标准和中国政府认证。与此同时,并不仅仅依赖于操作系统层面的安全性,还会在更底层的技术层面进行加固。

一个非常具有代表性的举措是,K1 Power 服务器所有部件的维护都需要通过认证,新更换的部件在没有认证之前是无法运行的,这样可以有效避免非认证部件导致的可靠性问题,保证整个系统的一致性。

在操作系统方面,包括浪潮 KUX 在内的多家本地安全可信操作系统厂商认证了 Power 服务器平台,并取得了产品兼容性认证证书。另外,通过浪潮具有自主知识产权的操作系统安全加固模块 SSR(国家等保三级认证),进一步保障系统安全无虞。

最后

不难看出,继承了浪潮 K1 小型机核心技术积累和自主创新能力,再融合 POWER 处理器出色计算能力的 K1 Power 服务器,既立足于实际场景需求,实现更精细化的设计;同时在生产的每一个环节都以高标准、高水准严格要求。这样的服务器平台,无疑能够成为支撑关键业务应用持续稳定运行的可靠基石。

(免责声明:本网站(https://c.shenzhoubb.com)
内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。)