CloudMatrix384

CM384 对比 NVL72,站在小局面上,比较下性能、生产、架构等诸多方面。

产品概述与竞争态势: CM384 由 384 颗 Ascend 910C 芯片全拓扑连接构成,与GB200 NVL72 直接竞争,在部分系统级指标上更先进,体现了HW在 AI 系统工程的创新 。
性能对比芯片与封装层面:Ascend 910C 在 BF16 dense TFLOPS、HBM 容量、HBM 带宽、Scale Up Bandwidth 等指标上低于 GB200 ,分别为其 0.3 倍、0.7 倍、0.4 倍、0.4 倍,Scale Out Bandwidth 二者相同。
系统层面:CM384 的 BF16 dense PFLOPS、HBM 容量、HBM 带宽、Scale Up Bandwidth、Scale Up Domain Size、Scale Out Bandwidth 分别是 GB200 NVL72 的 1.7 倍、3.6 倍、2.1 倍、2.1 倍、5.3 倍、5.3 倍,但 All – In System Power 是其 3.9 倍,在功耗相关指标上劣势明显 。
生产情况:Ascend 910C 虽由华为设计,但生产仍严重依赖国外,如三星 HBM、台积电晶圆及美日荷设备。中芯国际产能逐步提升,若相关生产要素不受限,产能有望大幅增长 。
系统架构纵向扩展网络:采用单层扁平拓扑,以大量 400G 收发器实现 2800Gbit/s 单向扩展带宽,与 GB200 NVL72 同一数量级,但成本高、功耗大、可靠性需要验证 。
横向扩展网络:两层 8 轨优化拓扑,需 1536 个 400G 收发器,实现高效数据传输 。
功耗与成本:系统总功耗近 500kW,是 GB200 NVL72 机架 4 倍多 ,但每个 GPU 功耗约为其 70 – 80%。纵向扩展网络 TCO 约为 NVL72 机架 6 倍,功耗超 10 倍 。
发展前景:尽管 CM384 存在功耗高、成本高的问题,但是东大能源不是问题,可承受这些代价。