NVIDIA发布八路安培怪兽：AMD 128核作陪

5月14日晚间，NVIDIA终于发布了期待已久的全新“安培”(Ampere)架构，又一个核弹级的GPU芯片，当然它面向的不是PC游戏市场，而是人工智能、深度学习、高性能计算、大数据等等尖端领域。

宣布新架构的同时，NVIDIA也发布了相应的第三代工作站“DGX A100”，或者按照NVIDIA的说法叫做个人超级计算机，可以支持在桌面端进行AI研究，并扩展到云端。

DGX A100内部配备了八颗安培架构的Tesla A100 GPU，每一颗整合40GB HBM2高带宽显存，总容量达320GB。

每颗GPU均支持多达12路的NVLink互连总线，GPU-GPU带宽高达600GB/s，可保证八颗GPU彼此完全互连，同时还有6颗NVIDIA NVSwitch芯片，双向带宽高达4.8TB/s。

不过从示意图上可以看出，每颗GPU周围其实有六颗HBM2显存芯片，很显然有一颗没有启用，剩下的五颗单颗容量8GB从而组成40GB。这意味着，A100核心现在应该也是屏蔽了六分之一的规模。

网络方面配备了刚完成收购的Mellanox的解决方案，包括八颗单端口ConnectX-6 VPI用于聚类，峰值性能200GB/s，以及一颗双端口ConnectX-6 VPI用于数据与存储网络。

有趣的是，搭配的CPU处理器这次抛弃了Intel至强，改而使用两颗AMD二代霄龙(Rome)，且是顶级的64核心型号，同时搭配1TB DDR4内存、15TB PCIe 4.0 NVMe SSD固态硬盘。

黄仁勋称这是“世界上最大的显卡”，不算外壳单单是其中的计算板加散热器就有45斤的重量，集成超过3万个不同组件，钻孔数量多达100万个，连接电路长达1公里。

NVIDIA宣称，DGX A100系统单节点的峰值性能为：INT8 10 PetaOPS(每秒1亿亿次整数运算)、FP16 5 PFlops(每秒5千万亿次半精度浮点运算)、TF32 2.5 PFlops(每秒2.5千万亿次运算)、FP64 156 TFlops(每秒156万亿次双精度浮点运算)。

相比于高端CPU服务器，它的AI计算性能要高出150倍，内存带宽高出40倍，IO带宽也高出40倍。

NVIDIA DGX A100个人超算现已上市，售价19.9万美元，约合人民币141万元。

该方案的云服务客户有阿里云、亚马逊AWS、百度云、Google Cloud、微软Azure、甲骨文、腾讯云，系统级客户有AtoS、Cray、戴尔、富士通、技嘉、HPE、浪潮、联想、广达、SuperMicro。

关键词： NVIDIA