一场关于算力基础设施的较量正在云端悄然展开——人工智能(AI)基础设施供应商CoreWeave联手英伟达和IBM,刚刚交出了MLPerf史上最大规模的MLPerf Training v5.0测试结果,也是动用最多英伟达GB200超级芯片的MLPerf基准测试成绩。
CoreWeave公布,此次联手英伟达和IBM的测试中,使用了2496块GB200 Grace Blackwell超级芯片,运行CoreWeave的AI优化云平台,凸显了CoreWeave云平台的规模之大以及其对当今严苛AI工作负载的充分准备。
CoreWeave称,此次测试构成了迄今为止在MLPerf基准测试中规模最大的英伟达GB200 NVL72集群,这一规模比之前唯一来自云服务商的提交结果大34倍。
而且,在最复杂的Llama 3.1 405B基础模型训练中,上述GB200 NVL72集群仅用27.3分钟就完成了整个流程。相比其他参与测试者的相似规模集群提交测试结果,CoreWeave的英伟达GB200集群将训练性能提升超过2倍。
"AI实验室和企业选择CoreWeave,是因为我们提供专门构建的云平台,具备他们工作负载所需的规模、性能和可靠性,"CoreWeave首席技术官兼联合创始人Peter Salanki表示。
这一结果凸显了GB200 NVL72架构带来的显著性能飞跃,以及CoreWeave基础架构在提供一致、一流的AI工作负载性能方面的强大实力。