谋定而后动,华为 TaiShan 聚势而为

2019 年伊始,当华为重磅发布 ARM 处理器芯片鲲鹏 920 时,即意味着基于 ARM 的华为 TaiShan 系列服务器将肩负着新的重要使命。

作为华为布局全栈全场景的智能计算平台的重要一部分,ARM 平台意在华为为做大计算领域空间,满足企业异构计算需求而生。

然而当多个图谋 ARM 服务器领域的“前辈”折戟沉沙时,华为这个后来者又如何在 ARM 数据中心阴影中走出一条光明之路?既然决心投入于此,当初定的小目标又实现了几何?

说得现实点,至今为止,华为到底构建了怎样的 ARM 计算解决方案能力?被客户接受的程度是什么?在那个关键的生态问题上,华为的 ARM“朋友圈”又是什么样子?

在日前于福州召开的华为生态伙伴大会上,这些问题我们得以解开。

总之来说,答案超出预料。

长期的 ARM 创“芯“战略

谋定而后动!实际上,华为在 ARM 架构处理器领域的探索已经超过了 15 年

早在 2004 年,华为就与 ARM 公司开展合作,启动基于 ARM 架构相关芯片的开发,涵盖智能终端、通信、存储、服务器等各个领域。2009 年,华为推出智能手机处理器 K3,也就是麒麟芯片的前身,如今麒麟芯片已经把手机带入智慧时代。2014 年华为推出存储型处理器 Hi1610。2016 年华为推出鲲鹏 916 服务器处理器。直至今年重磅发布的鲲鹏 920。

一步一个脚印,华为在 ARM 创“芯”之路上走得异常坚实而坚决。

如果说初期 ARM 处理器产品是华为面向数据中心存储、计算领域的试水之作。那么鲲鹏 916 的推出和鲲鹏 920 的横空出世,则是要真正应验“鲲鹏凌云、泰山聚势“,其是把 TaiShan 服务器全面带向数据中心的重磅产品。

从最初的产品能用,到匹配业界中端水平、覆盖主流应用场景,再到业界领先的制程和技术,华为鲲鹏处理器在竞争力维度实现了跟随、持平到超越的步伐。

不妨再来看看鲲鹏 920 的实力:

0

1

高性能处理器内核

如果说处理器是服务器的核心,那么内核则是核心中的核心。基于华为在芯片研发的长期积累,鲲鹏 920 处理器内核实现自主设计,同频单线程性能相比前一代提升 45%,满足高性能应用场景和对数据安全有要求的特定场景。

0

2

高集成度

鲲鹏 920 处理器采用业界领先的 7nm 先进工艺,集成最多 64 核,并支持最高 3.0G Hz 的工作主频,实现极致的多核架构和低时延表现,满足高并发、低时延应用的计算需求。此外,鲲鹏 920 处理器还集成了南桥、网卡和 SAS 控制器等功能,节省了服务器系统能耗并提升了系统 PCIe 扩展能力。

0

3

高吞吐能力

鲲鹏 920 处理器业界率先支持 8 通道内存控制器和 PCIe 4.0,相比业界,内存带宽提升 46%,IO 速率提升 66%。这些数据吞吐能力的提升对于 CAE 仿真、气象仿真和基因分析等 HPC 应用场景非常关键。

0

4

硬件加速引擎

除了上述提到的一系列芯片功能的集成,鲲鹏处理器还集成了数据加密 / 解密、压缩 / 解压缩、EC(Erasure Code)纠删码、数据校验等硬件加速引擎,能够替代处理器的指令计算,极大提升数据处理效率,并提升数据安全。

面向未来,华为甚至已经开始着手规划未来五年的鲲鹏处理器产品,在数据中心领域 ARM 产品的投入决心可见一斑。

构建五大 TaiShan ARM 应用场景解决方案

如果说鲲鹏处理器体现的是华为长远的战略输出,那么基于鲲鹏处理器和 TaiShan 服务器的 ARM 解决方案则是聚势而为。

对于在什么场景下能够发挥鲲鹏处理器的技术优势,并为客户带来什么样的实际价值,华为明显是做了深度思考。基于自身强大的硬件和工程创新能力,华为从芯片、服务器整机,到系统全方位地构建解决方案能力

具体策略方面,华为明显是有的放矢,并不打算全面开花,而是结合实际情况,聚焦大数据、分布式存储、ARM 原生、HPC 和 Web等五大应用场景,为客户提供最优的计算解决方案,帮助实现高效能计算和降低数据中心 TCO。下面以华为打造的前三大 TaiShan ARM 解决方案举例:

1

TaiShan 大数据场景

目前大数据的主流计算框架是分布式计算模型 MapReduce,它的原理是将大数据量切分成多个独立的、较小的数据集,从而实现对大数据量的分布式处理。

如果能在一个计算节点上提升多个任务或独立 Task 进程的并发能力,则能够有效提升大数据计算性能和效率。

鲲鹏的多核计算架构则完美匹配这种多线程、高并发的典型业务模型。为此,华为在构建 TaiShan 大数据解决方案时,主要从以下几方面开展研究:

  • 优化大数据组件的数据处理流程,提升计算并行度。

  • 充分发挥 TaiShan 领先的内存能力,优化内存设置和系统 Cache 预取。

  • 优化大数据开发工具包 JDK(Java Development Kit),提升 ARM 平台运行效率。

  • 利用鲲鹏 920 处理器内置的加密、压缩、EC 等硬件加速引擎,提升大数据性能。

对比 TPC benchmark 测试,华为 TaiShan 大数据方案相比传统方案能够提升 30% 性能

2

TaiShan 分布式存储场景

分布式存储将数据分散存储在多台独立的服务器存储硬盘上,集群中的节点之间会有大量数据和管理信息的交互、输出,节点的并发处理能力对集群的整体性能影响很大。鲲鹏多核架构的特性则可以有效地解决单个节点并发处理能力不足的问题,提升整个集群的整体性能。

华为 TaiShan 分布式存储解决方案主要进行了如下优化措施:

  • 针对 HDD、NVMe SSD 等不同类型的硬盘采取匹配的处理器核配置策略,确保一个或多个物理的处理器核支持单个数据硬盘,避免进程切换,提升性能。

  • OSD 节点的空闲 CPU 核运行 RGW 业务,无需部署独立的 RGW 节点,提升单位节点的处理器核使用率。

  • 利用鲲鹏 920 处理器内置的一系列硬件加速引擎,提升整体存储性能。

华为 TaiShan 分布式存储解决方案,相对于传统解决方案,在全 NVMe SSD 热数据场景下,整体性能提升 10% 以上;在 NVMe SSD 与 HDD 混合型的温数据场景下,能减少 10% 的服务器数量;在全 HDD 冷数据应用场景,集群能耗低 10% 以上

3

TaiShan ARM 原生场景

由于市场上超过 80% 的移动应用是基于 ARM 指令集的安卓应用,因此,安卓应用与 ARM 服务器属于原生同构。安卓应用与 ARM 服务器天然兼容,无需移植即可直接运行,而且运行过程中无指令翻译环节,性能无损失,相比传统方案最高能够提升 3 倍性能。

ARM 云手机则是 ARM 原生应用的典型场景之一,通过在 ARM 服务器上运用虚拟化仿真技术,为用户提供基于云的仿真手机服务。它能够完美解决终端测试、移动娱乐和移动办公场景下的性能体验、维护管理,以及数据安全的相关需求。当前面向不同行业的应用需求,主要有三种 ARM 云手机类型:

  • 面向互联网行业的托管型云手机,满足移动 APP 开发的手机自动化仿真测试。

  • 面向游戏行业的游戏型云手机,提供免安装、支持即点即玩的高性能云手机服务。

  • 面向企业的办公型云手机,提供数据不落地的云手机办公解决方案。

基于 TaiShan 服务器的云手机方案

那么,TaiShan ARM 云手机解决方案又该如何构建?简单理解,它有点类似于移动端的 VDI(虚拟桌面),需要云端硬件层、云端软件层等端到端的解决方案。

基于华为云的 ARM 云手机服务已经构建了一整套的 ARM 原生解决方案能力,包括硬件层以 TaiShan 服务器为核心,并使能各类异构资源(GPU、内存)、加速单元资源。软件层包括固件、操作系统和安卓仿真环境。云端和用户设备间传输指令流,图像在手机侧渲染,可以提供更高的帧速率、减小带宽消耗和网络延时。

总结来说,华为选择了 ARM 计算擅长的应用场景进行解决方案能力的构建,这对于开拓一个全新的市场尤为重要。以点带面,让客户看到 ARM 计算的独特价值才能获得更大的机会。

华为 TaiShan 的成功突破

华为发布的三大 ARM 计算解决方案在企业用户侧已经得到了应用,并且是成功的。

例如某平安城市 ARM 架构大数据分析平台项目,成功部署了 1000+ 台 TaiShan 服务器,是目前国内规模最大的 ARM 架构大数据集群。支持 10 类大数据集群,集群性能完全满足设计要求,系统运行稳定。

成功部署只是基础,更重要的是可以看到,基于鲲鹏处理器的高效能和高集成度优势,TaiShan 服务器整机功耗相比传统服务器有明显的能耗优势。在该项目的实际部署情况中, TaiShan 服务器充分利用机柜供电能力,实现单机柜能够部署多 30% 的计算节点,集群减少 23% 的部署机柜数量,降低了 20% 的集群能耗,给客户带来整体 TCO 降低 10~20% 的显著价值 ****。

在分布式存储方面,也获得了某银行的成功应用。其采用华为 TaiShan 服务器成功构建了银行业第一个 PB 级容量的 ARM 架构分布式存储集群。由于是银行业首次应用 ARM 架构服务器,银行首先从自身积累了大量经验的开源分布式存储系统切入,定期跟踪服务器内部运行指标和监测金融业务系统的运行稳定情况,并与华为团队通过大量系统级测试和优化工作,有效验证了 TaiShan 服务器应用在各项金融业务场景中的可行性。

与同等配置和存储容量的传统集群相比,TaiShan 集群的整体功耗降低 20% 以上,能够有效提升整体数据中心的资源部署密度及利用率。迄今为止,该集群平稳运行,达到了银行设计预期的业务性能目标,有效地支持了生产数据的实时存储和备份。

在云手机服务上,基于 TaiShan ARM 服务器的云手机服务,帮助华为内部研发团队进行移动应用开发的手机自动化仿真测试,摆脱对真机的依赖,研发团队的相关验证工作可以提前 3 个月完成,极大加速了新产品的研发进度。

事实上,云手机服务已经在国外游戏厂商得到商业实践,在整个行业内也已经处于验证和部署的前期,随着此类应用服务模式的普及甚至爆发,也必将给华为 TaiShan 带来巨大的机会。

说到这,不妨再来用一个数据侧面验证下华为 TaiShan 的市场情况。据了解,当前基于 ARM 架构的 TaiShan 相关产品已经实现在运营商、金融、政府、制造、互联网等行业的部署与应用,2018 年的应用规模数已经突破了 2 万台 / 套,实现了规模化应用的市场检验,也反馈出市场对于华为 TaiShan 服务器产品的接受度。可以说,华为 TaiShan 已经形成突破。

TaiShan 的生态之花

当然,从突破到深化,从一点到整面,还缺不了一项十分重要的工作—生态。好的计算硬件平台还需要好的生态体系来支撑,如何将 TaiShan 服务器的创“芯“能力转化成面向客户的计算解决方案,生态建设尤为关键。

在产业生态领域,华为有着这样的规划:从硬件、基础软件和应用三个层面持续推进 ARM 产业合作,计划通过 3 到 5 年的时间,协同 ARM 产业组织,打造完备的 TaiShan 产业生态

其实,目前 TaiShan 的生态合作已经取得较大进展,生态体系已经相对比较完善。这体现在四个维度的使能方面:

  • ** 基础硬件使能:** 支持兼容业界主流的存储硬盘、网卡和 FPGA 等硬件板卡或加速部件产品;

  • ** 基础软件使能:** 支持覆盖国内外的业界主流操作系统、大数据、软件定义存储,以及数据库、虚拟化、云平台和 Web 的基础软件;

  • ** 行业应用使能:** 华为联合行业伙伴,构建 TaiShan 行业解决方案,目前已经在金融、政府、电力、运营商和平安城市等行业实现应用使能;

  • ** 产业标准化使能:** 华为积极深度地参与 GCC、Linaro、OEHI 等 ARM 产业组织工作,与产业链伙伴携手制定并推出基于 ARM 的服务器合规计划 ServerReady,同时也已经成为 Linaro 生态组织的核心成员。

当然,在生态建设上,基于 ARM 架构的华为 TaiShan 要想一口吃成胖子也不可能。殊不知,即使如 x86 这样强大的存在,英特尔也在持续不遗余力地投入在生态完善上。所以,迎接 ARM 计算的是一条长长的生态之路

好在华为有着其擅长的生态基因,这在华为 2011 年进入企业业务的发展历程中可以看出。在华为中国生态伙伴上,华为还重磅启动了智能计算生态联盟,这预示着华为智能计算在 AI 产业和 ARM 服务器产业的生态建设日趋完善。以“技术 + 生态”双轮驱动的模式,华为正在携手产业链的所有合作伙伴开出繁茂的 ARM 生态之花