华为 Ascend AI 芯片在运行 DeepSeek R1 模型时如何超越 Nvidia 处理器
+ 查看更多

华为人工智能数据中心架构CloudMatrix 384的性能体现了该公司在克服美国技术控制措施方面取得的进展。

Wency Chen

■

一份技术论文称，华为技术有限公司先进的数据中心架构CloudMatrix 384使该公司的 Ascend 芯片在运行DeepSeek的 R1人工智能(AI) 模型时的性能超越了Nvidia的 H800 图形处理单元 (GPU)。

该论文由华为和中国人工智能基础设施初创公司SiliconFlow的研究人员联合撰写，将 CloudMatrix 384 描述为专门用于处理大量人工智能工作负载的“人工智能超级节点”。

根据本周发布的论文，华为预计CloudMatrix将“重塑AI基础设施的基础”。它由384个Ascend 910C神经处理单元（NPU）和192个鲲鹏服务器中央处理器组成，它们通过统一总线互连，提供超高带宽和低延迟。

论文指出，名为 CloudMatrix-Infer 的高级大型语言模型 (LLM) 服务解决方案充分利用了该基础架构。在运行 DeepSeek 的 6710 亿参数R1推理模型时，它的性能超越了世界上一些最杰出的系统。

该架构体现了受到美国制裁的华为为克服华盛顿的技术控制措施所做的努力，该公司正在突破人工智能系统性能的界限。

数据中心是容纳大容量服务器和数据存储系统的设施，配备多个电源和高带宽互联网连接。越来越多的企业正在使用数据中心来托管或管理其人工智能项目的计算基础设施。

在所谓的预填充阶段（涉及提示的初始处理），CloudMatrix-Infer 在 4,000 个令牌的提示长度下，每个 NPU 的吞吐量达到了每秒 6,688 个令牌。这相当于每万亿次浮点运算 (TFLOP) 的计算效率为每秒 4.45 个令牌。

标记是 LLM（ ChatGPT等生成式 AI服务背后的技术）用于处理文本的基本单位。标记长度直接影响成本、处理时间以及 AI 模型理解和响应复杂指令或叙述的能力。

TFLOPS 是衡量计算机处理速度的指标，具体来说，是指计算机在训练人工智能系统等任务中执行复杂计算的能力。

在随后从 AI 模型生成输出的解码阶段，该论文的研究结果显示，CloudMatrix 对于长度为 4,000 的键值缓存，每个 NPU 每秒记录 1,943 个令牌，这种内存结构可以更有效地利用 AI 处理器。

同一阶段显示输出生成时间始终低于每令牌 50 毫秒，效率为每 TFLOPS 每秒 1.29 个令牌。

根据该论文，这些指标超过了基于美国公司旗舰 H100 GPU 的 Nvidia SGLang LLM 快速服务框架的性能，以及使用 H800 处理器运行 DeepSeek 的 R1 的另一个系统。

这篇论文的主要作者、华为“天才少年”计划应届生左鹏飞周三在类似 Quora 的问答平台知乎上发表文章称，这项研究“全面透明地展示了华为 CloudMatrix 的综合技术栈”。

左鹏飞写道：“这旨在帮助业界充分了解国产昇腾NPU的性能。”他还补充道，该论文还旨在“增强国内技术生态系统对使用中国自主研发的NPU超越英伟达GPU的信心”。

该论文标志着总部位于深圳的华为首次正式提供其旗舰产品Ascend 910C AI加速器的功能细节。

这也呼应了华为创始人兼首席执行官任正非最近发表的言论。任正非承认，华为的昇腾芯片仍然比美国竞争对手落后“一代”。但他补充说，通过采用“堆叠和集群”等方法，华为的计算性能已可与世界上最先进的系统相媲美。

英伟达创始人兼首席执行官黄仁勋似乎认同任正非的评估。“人工智能是一个并行问题，所以如果每台计算机都不够用……那就增加更多计算机吧，”黄仁勋上周在巴黎 VivaTech 大会期间接受美国广播公司 CNBC 采访时表示。

黄仁勋表示：“他的意思是，中国能源充足，他们只会使用更多芯片。”他还补充道，鉴于中国这个全球第二大经济体拥有丰富的人工智能人才资源，中国仍然是美国具有战略意义的重要市场。

■