浪潮 AI 服务器大幅提升 NLP 模型 Transformer 训练性能

近日, 在北京举行的 2019 人工智能计算大会 (AICC 2019) 上, 浪潮发布主流自然语言处理 (NLP) 模型 Transformer 的最新性能测试数据。Transformer 模型参数规模可达数亿, 对计算、通信的要求非常高。性能数据显示, 相比同类服务器, 浪潮 AI 服务器 NF5488M5 大幅提升了 Transformer 的训练性能,GLUE 基准训练至 80.4% 的时间相比同类产品大幅减少 67%。

人工智能正在由“能看、会听”的感知智能向“能读、会写”的认知智能迈进。由于文字是信息、思想的重要载体, 如果计算机能够理解文字并能够用文字表达, 那么就具备了读写能力, 因而 NLP 被认为是认知智能的重要突破口。目前主流的 NLP 模型包括 Transformer, Bert, GPT, XLNet 等, 而 Bert 和 GPT 都基于 Transformer 架构。Transformer 被视为是 NLP 的经典模型,2017 年由谷歌提出, 其利用自注意力 (self-attention) 机制实现快速并行, 并且可以增加到非常深的深度, 充分发掘 DNN 模型的特性, 提升模型准确率。

但是 Transformer 模型训练是一大难题, 因为其参数规模达到数亿, 对计算力的需求很大。OpenAI 的 Transformer 模型有 12 层、768 个隐藏单元, 使用 8 块 P100 GPU 在 8 亿词量的数据集上训练 40 个 Epoch 需要一个月。背后的原因很大程度上在于 GPU 通信制约。Transformer Attention 机制的全连接层计算时会产生海量参数, 而更新参数梯度需要 GPU 间高速传输。同时, 模型规模很大导致占用大量 GPU 显存, 而 batchsize 通常都很小, 导致每次计算的时间较快, 计算后更新参数梯度频繁, 这也进一步要求更高的 GPU 间传输速度。

浪潮 AI 服务器 NF5488M5 通过无阻塞的 GPU 全互连设计, 突破性地实现了 All to All 300GB/s 的 Peer to Peer 带宽。在当前深度学习通信模型 All Reduce 性能表现上,NF5488M5 的实际通信带宽可以达到采用常规 NVLink 互联的 GPU 服务器的 3 倍以上。正是这种特性, 大大提升了 Transformer 模型在 NF5488M5 上的通信效率, 从而加大了计算通信比, 节约了整体运行时间。测试结果表明,NF5488M5 大幅提升了 Transformer 训练性能,GLUE 基准训练至 80.4% 的时间比采用 PCIe 互联的 8GPU 服务器缩短 67%, 比采用常规 NVLink 互联的 8GPU 服务器缩短 31%。

浪潮集团 AI&HPC 总经理刘军认为, 当前基于 Transformer 的 Bert, XLNet 等模型代表了 NLP 的发展方向, 而它们的特点就是加速器间通信制约。测试结果充分表明浪潮 AI 服务器 NF5488M5 在 GPU 间通信效率上具有显著领先优势, 能够大幅提升 Transformer 等大型 AI 工作负载的训练性能, 降低训练成本, 加速认知智能研发和应用落地。

浪潮是人工智能计算的领导品牌,AI 服务器中国市场份额保持 50% 以上, 并与人工智能领先科技公司保持在系统与应用方面的深入紧密合作, 帮助 AI 客户在语音、语义、图像、视频、搜索、网络等方面取得数量级的应用性能提升。浪潮与合作伙伴共建元脑生态, 共享 AI 计算、资源与算法三大核心平台能力, 助力行业用户开发并部署属于自己的“行业大脑”, 加速推进产业 AI 化落地。