英伟达揭示了xAI的“巨像”超级计算机集群是如何处理10万个Hopper gpu的——这一切都取决于该芯片制造商的Spectrum-X以太网网络平台。
该公司透露,Spectrum-X旨在通过其远程目录内存访问(RDMA)网络为多租户、超大规模的人工智能工厂提供大规模性能。
该平台从一开始就部署在世界上最大的人工智能超级计算机“巨像”上。这家由埃隆·马斯克(Elon musk)所有的公司一直在使用该集群来训练其Grok系列大型语言模型(llm),这些模型为提供给X用户的聊天机器人提供动力。
该工厂与英伟达(Nvidia)合作仅用了122天就建成了,目前xAI正在对其进行扩建,计划部署总计20万颗英伟达Hopper gpu。
训练Grok需要强大的火力
Grok的人工智能模型非常大,Grok-1可以测量3140亿个参数,Grok-2在8月份推出时的表现超过了Claude 3.5 Sonnet和GPT-4 Turbo。
当然,训练这些模型需要显著的网络性能。使用Nvidia的Spectrum-X平台,xAI记录了零由于“流碰撞”或AI网络路径瓶颈而导致的应用程序遗留退化或数据包丢失。
xAI透露,Spectrum-X的拥塞控制功能使其能够保持95%的数据吞吐量。该公司补充说,这种级别的性能无法通过标准以太网在这种规模下提供。