Nvidia 的新款 Blackwell 芯片大幅缩短了 AI 训练时间

Nvidia 的新款 Blackwell 芯片正在改变人工智能系统的训练速度。
非营利组织 MLCommons 周三发布的最新一轮基准测试结果显示,人工智能芯片,Nvidia 编写的 Blackwell 架构创下了记录。
使用 Meta 的开源 Llama 3.1 405B 模型(其最大、最复杂的 AI 模型之一)进行测试时,训练在仅需27分钟使用 Blackwell 芯片。这仅用了 2,496 个 Blackwell GPU 就完成了,比 Nvidia 之前的 Hopper 芯片所需的时间少了一个数量级。
相比之下,以前的设计使用了三倍以上的Hopper GPU达到同等性能。通过该芯片,Blackwell 的速度提高了一倍多,收敛效率实现了巨大飞跃。对于训练万亿参数模型的组织来说,这种性能提升可以转化为显著的时间和成本节省。
这些结果被认为是第一个MLCommons在这些极端规模上训练模型的基准,并提供芯片如何处理最苛刻的人工智能工作负载的真实测量。
CoreWeave 和 Nvidia 推动更智能的 AI 扩展
这一结果不仅是 Nvidia 的胜利,也凸显了参与测试的云基础设施公司 CoreWeave 的工作成果。在新闻发布会上,CoreWeave 首席产品官 Chetan Kapoor 指出了一个在业界越来越有意义的总体方向:摆脱由数万个 GPU 组成的大型、同质化模块。
公司现在不再构建单一、庞大、单片的计算系统,而是着眼于更小、相互连接的子集,以便更高效、更好地扩展地管理大规模模型训练。
卡普尔表示,通过这种技术,开发人员可以继续扩大规模或减少训练具有数万亿个参数的超大模型所需的时间。
由于人工智能模型的规模和复杂性不断膨胀,因此转向硬件的模块化部署也是必要的。
Blackwell 认为 Nvidia 在 AI 模型训练领域处于领先地位
尽管最近的焦点已经转移到人工智能推理上,其中像 ChatGPT1 这样的模型可以实时回答用户的问题,但训练仍然是人工智能开发的主力.
训练部分赋予这些模型智能,使它们能够理解语言,解决一些最具挑战性的问题,甚至创作出类似人类的散文。计算要求极高,需要数千个高性能芯片长时间运行,通常需要数天,甚至数周或数月。
情况已经发生了改变Nvidia的Blackwell架构通过大幅减少芯片数量和训练庞大 AI 模型所需的时间,Blackwell 芯片让 Nvidia 在速度和效率至上的市场中占据了更有利的地位。
诸如 Meta 的 Llama 3.1 405B 之类的训练模型拥有数万亿个参数,以前必须在庞大的 GPU 集群上运行,这是一个昂贵且耗能的过程。
在医疗保健、金融、教育和自动驾驶汽车等众多行业对更大、更强大的人工智能模型的需求日益迫切的当下,这样的性能提升具有重要的意义。
这也向英伟达的竞争对手发出了一个明确的信号。如今,像AMD和英特尔这样正在研发AI专用芯片的公司,面临着更大的压力,需要保持类似的发展速度。
AMD 提交了 MLCommons 基准测试,但并未显示像 Llamas 3.1 405B 这样大型模型的结果。Nvidia 是唯一一家在基准测试中跑出高端成绩的公司,这证明了其硬件性能卓越,并且愿意应对最艰巨的挑战。
Cryptopolitan Academy:想在 2025 年实现财富增值吗?欢迎参加我们即将推出的网络课程,学习如何利用 DeFi 实现增值。保存您的位置