半导体
持续中 · 1 次更新Fact 9/10英伟达称在 Blackwell GPU 上使用 NVFP4 格式可使 JAX 模型训练速度最高提升 73%
文章语言
简体中文
英伟达表示,其在 Blackwell 架构 GPU 上推出的新 NVFP4 数值格式,相较 FP8 基线,可使基于 JAX 框架的大型语言模型训练速度最高提升 73%。公司称,在使用 MaxText 方案训练 Llama 3 8B 时,1 万个预训练步骤内保持了相近的训练损失曲线。
Open article · no sign-in required
来源与披露
The article presents factual, well-sourced claims about NVIDIA's NVFP4 performance on Blackwell GPUs. All key technical claims (73% speedup, 1.31×–1.73× range, 10,000 training steps, Llama 3 8B model, no measurable accuracy loss) are directly supported by the NVIDIA developer blog and arxiv paper. The article maintains neutral, informational language throughout, avoiding disparagement or reputation-damaging statements. It appropriately contextualizes competitive landscape without making pejorative comparisons. The practical considerations section responsibly notes validation needs and hardware-specific constraints. Minor deduction for one instance of slightly speculative framing ('can be seen as an attempt to maintain technical leadership') which, while mild and contextually appropriate, edges toward motive speculation. Overall, this is high-quality, fact-based technical reporting that meets all reputation-safety and verification standards.
Market lens
On-device AI shifts attention from data-center chips to memory allocation and device margins
The useful read is whether local AI features create measurable pressure on memory mix, pricing, and product release schedules.
Impact path
Device AI → memory pressure
Signals to watch
- LPDDR and HBM allocation commentary
- AI PC and phone memory configurations
- Supplier lead times, spot pricing, and margin guidance
Verification schedule
D+1 · Jun 13
Do OEM launches raise baseline memory specs?
D+3 · Jun 15
Do suppliers change allocation or pricing language?
D+7 · Jun 19
Do device margins absorb or pass through memory cost?
Informational context only — not investment, legal, tax, or financial advice.
英伟达披露了其最新 Blackwell 架构 GPU 在使用一种名为 NVFP4 的新低精度数值格式进行大型语言模型训练时的性能提升。该公告基于与谷歌 JAX 框架和 MaxText 训练库相关的实验,反映出行业持续致力于降低人工智能模型训练所需成本和时间的趋势。
根据一篇开发者博客文章,英伟达在 Blackwell GPU 上使用 NVFP4 格式训练 Llama 3 8B 模型时,相较 FP8 基线实现了 1.31 倍至 1.73 倍的加速。这相当于最高 73% 的性能提升,公司表示,这些提升并未带来可测量的准确率损失。公司称,在 10,000 个预训练步骤中维持了相近的训练损失曲线。
数值精度与训练效率的平衡
人工智能模型训练中的数值精度涉及计算速度、内存使用和最终模型质量之间的平衡。传统上,32 位浮点(FP32)格式是标准,但近年来行业已转向 16 位(FP16)、Brain Float 16(BF16)以及 8 位(FP8)格式。每一步精度降低,都是以更高的计算吞吐量和更低的内存带宽需求为代价换取的。
NVFP4 将这一趋势扩展到 4 位浮点格式。理论上,与 8 位格式相比,4 位格式可以将内存使用量减半并提高吞吐量。不过,在实际应用中,可表示的数值范围和精度都受到限制,这可能在训练过程中带来数值不稳定或收敛问题。
英伟达的结果之所以值得关注,是因为这些结果表明,尽管存在上述理论担忧,NVFP4 仍可在真实的大型语言模型训练中使用,并且不会损失准确率。公司报告称,在 10,000 个预训练步骤中维持了相近的训练损失曲线,这表明模型的学习模式与使用 FP8 时相近。
Blackwell 架构的作用
这些性能提升与 Blackwell GPU 的硬件设计密切相关。Blackwell 是英伟达最新的数据中心 GPU 架构,包含用于低精度算术运算的专用硬件加速器。NVFP4 格式旨在利用这些硬件能力,将软件优化与硬件支持结合起来。
MaxText 是谷歌开发的基于 JAX 的高性能训练库,为大型语言模型训练提供实现。英伟达强调与 MaxText 的集成,凸显了 JAX 生态系统内的协作,也表明 Blackwell 的能力不仅可在 PyTorch 或 TensorFlow 中发挥作用,也可扩展到其他框架。
行业背景与竞争格局
此次公告是行业降低人工智能训练成本的更广泛努力的一部分。大型语言模型训练可能需要大量计算支出,训练时间从数周到数月不等。73% 的加速有望降低这些成本和时间,使更多组织能够开展大规模模型训练。
竞争对手也在朝类似方向推进。AMD 正在开发自己的低精度格式,谷歌的 TPU 围绕 Brain Float 格式进行优化,而英特尔及其他新进入者也在寻求在人工智能加速器市场中的位置。英伟达关于 NVFP4 的公告可以放在这一竞争环境中理解。
实际考量与限制
不过,将这些结果应用于生产环境仍需考虑若干因素。首先,英伟达披露的结果基于特定模型(Llama 3 8B)和特定训练配置(MaxText 方案)。在不同模型架构、数据集或训练超参数下是否会出现类似结果,还需要进一步验证。
其次,10,000 个预训练步骤可能只代表完整训练过程的一部分。大型模型通常要经历数十万到数百万个训练步骤,数值误差可能在较长时间内累积。目前尚不清楚英伟达是否已确认在更长训练过程中也能保持同样的准确率。
第三,NVFP4 是 Blackwell 架构专用的格式,因此要利用这一能力需要升级到最新硬件。使用现有 Hopper 或 Ampere 代 GPU 的组织无法立即受益于这些能力。
未来展望
随着人工智能模型规模和复杂性持续增加,低精度训练的进展变得愈发重要。行业已经在讨论拥有万亿级参数的模型,而训练此类模型所需的计算资源也在持续增长。NVFP4 之类的技术有助于缓和这一增长,并支持更高效的训练。
此外,低精度格式在推理阶段也可能发挥重要作用。在将训练完成的模型部署到生产环境时,更低的精度意味着更快的响应时间和更低的运营成本。如果训练和推理都能使用同一种低精度格式,整个人工智能流水线的效率可能进一步提升。
英伟达的公告显示,硬件制造商、框架开发者和模型研究人员之间的协作可以带来实际的性能改进。JAX 和 MaxText 社区采用 NVFP4 的速度,以及该技术能否在其他模型和任务中复现类似结果,将有助于决定其长期影响。
低精度格式的采用也具有经济和环境层面的意义。缩短训练时间可以降低电力消耗,从而有助于减少数据中心运营成本和碳排放。在人工智能行业面临可持续性压力的背景下,高效训练技术为同时应对环境与经济因素提供了一种路径。
构建者启示
- 使用 Blackwell GPU 的基于 JAX 的训练流水线可以集成 MaxText 和 NVFP4,将训练时间和成本最多降低 73%,其中 Llama 系列模型的收益尤为明显。
- 计划建设新训练基础设施的团队可以评估能够利用 Blackwell 架构低精度能力的框架(JAX,以及未来可能支持的 PyTorch),同时注意现有 Hopper 代硬件不支持这些特定优化。
- 在生产部署前,使用自身模型和数据验证 NVFP4 对准确率的影响十分重要,尤其应检查长时间训练运行以及不同超参数设置下的数值稳定性。
Want follow-up alerts? Subscribe by email after reading the public article.
Market lens
On-device AI shifts attention from data-center chips to memory allocation and device margins
The useful read is whether local AI features create measurable pressure on memory mix, pricing, and product release schedules.
Impact path
Device AI → memory pressure
Signals to watch
- LPDDR and HBM allocation commentary
- AI PC and phone memory configurations
- Supplier lead times, spot pricing, and margin guidance
Verification schedule
D+1 · Jun 13
Do OEM launches raise baseline memory specs?
D+3 · Jun 15
Do suppliers change allocation or pricing language?
D+7 · Jun 19
Do device margins absorb or pass through memory cost?
Informational context only — not investment, legal, tax, or financial advice.
视觉简报
A simplified workflow showing how JAX and MaxText can use NVFP4 on Blackwell GPUs to speed up model training.
更正与安全
See a factual, privacy, rights, or safety issue? Review the corrections process or contact Guidances before relying on this article for important decisions.