半導體
持續中 · 1 次更新Fact 9/10NVIDIA 報告:採用 NVFP4 格式後,Blackwell GPU 上的 JAX 模型訓練速度最高提升 73%
文章語言
繁體中文
NVIDIA 表示,其在 Blackwell 架構 GPU 上推出的新數值格式 NVFP4,與 FP8 基準相比,可使使用 JAX 框架的大型語言模型訓練速度最高提升 73%。公司並指出,使用 MaxText 配方訓練 Llama 3 8B 時,在 10,000 個預訓練步驟中維持了相近的訓練損失曲線。
Open article · no sign-in required
来源与披露
The article presents factual, well-sourced claims about NVIDIA's NVFP4 performance on Blackwell GPUs. All key technical claims (73% speedup, 1.31×–1.73× range, 10,000 training steps, Llama 3 8B model, no measurable accuracy loss) are directly supported by the NVIDIA developer blog and arxiv paper. The article maintains neutral, informational language throughout, avoiding disparagement or reputation-damaging statements. It appropriately contextualizes competitive landscape without making pejorative comparisons. The practical considerations section responsibly notes validation needs and hardware-specific constraints. Minor deduction for one instance of slightly speculative framing ('can be seen as an attempt to maintain technical leadership') which, while mild and contextually appropriate, edges toward motive speculation. Overall, this is high-quality, fact-based technical reporting that meets all reputation-safety and verification standards.
Market lens
On-device AI shifts attention from data-center chips to memory allocation and device margins
The useful read is whether local AI features create measurable pressure on memory mix, pricing, and product release schedules.
Impact path
Device AI → memory pressure
Signals to watch
- LPDDR and HBM allocation commentary
- AI PC and phone memory configurations
- Supplier lead times, spot pricing, and margin guidance
Verification schedule
D+1 · Jun 13
Do OEM launches raise baseline memory specs?
D+3 · Jun 15
Do suppliers change allocation or pricing language?
D+7 · Jun 19
Do device margins absorb or pass through memory cost?
Informational context only — not investment, legal, tax, or financial advice.
NVIDIA 已披露其最新 Blackwell 架構 GPU 在使用一種名為 NVFP4 的新低精度數值格式進行大型語言模型訓練時的效能提升。這項公告基於與 Google 的 JAX 框架及 MaxText 訓練函式庫相關的實驗,反映出業界持續致力於降低人工智慧模型訓練所需的成本與時間。
根據一篇開發者部落格文章,NVIDIA 在 Blackwell GPU 上使用 NVFP4 格式訓練 Llama 3 8B 模型時,相較於 FP8 基準,取得了 1.31 倍至 1.73 倍的加速。這相當於最高 73% 的效能提升,而公司表示,這些增益並未帶來可測量的準確度損失。公司並稱,在 10,000 個預訓練步驟中維持了相近的訓練損失曲線。
平衡數值精度與訓練效率
人工智慧模型訓練中的數值精度,涉及運算速度、記憶體使用量與最終模型品質之間的平衡。傳統上,32 位元浮點數(FP32)格式是標準,但近年來業界已轉向 16 位元(FP16)、Brain Float 16(BF16)以及 8 位元(FP8)格式。每一次轉換都以降低精度為代價,換取更高的運算吞吐量與更低的記憶體頻寬需求。
NVFP4 以 4 位元浮點格式延續了這一趨勢。從理論上看,4 位元格式相較於 8 位元格式可將記憶體使用量減半,並提高吞吐量。然而在實務上,可表示的數值範圍與精度都受到限制,這可能在訓練過程中造成數值不穩定或收斂問題。
NVIDIA 的結果之所以受到關注,在於其顯示 NVFP4 即使面對上述理論疑慮,仍可在真實的大型語言模型訓練中運作且不損失準確度。公司表示,在 10,000 個預訓練步驟中維持了相近的訓練損失曲線,顯示模型的學習模式與使用 FP8 時相近。
Blackwell 架構的角色
這些效能提升與 Blackwell GPU 的硬體設計密切相關。Blackwell 是 NVIDIA 最新的資料中心 GPU 架構,內建用於低精度算術運算的專用硬體加速器。NVFP4 格式的設計即是為了運用這些硬體能力,將軟體最佳化與硬體支援結合。
MaxText 是 Google 開發的、基於 JAX 的高效能訓練函式庫,提供大型語言模型訓練的實作。NVIDIA 強調與 MaxText 的整合,凸顯了 JAX 生態系內的合作,也顯示 Blackwell 的能力可在 PyTorch 或 TensorFlow 之外的框架中加以運用。
產業背景與競爭格局
這項公告屬於業界降低 AI 訓練成本的更廣泛努力之一。大型語言模型訓練可能需要相當可觀的運算支出,訓練時間則可能從數週延續至數月。73% 的加速幅度有潛力降低這些成本與時間,使更多組織能夠接觸大規模模型訓練。
競爭對手也正朝相似方向發展。AMD 正在開發自家的低精度格式,Google 的 TPU 則圍繞 Brain Float 格式進行最佳化,而 Intel 與其他新進業者也在尋求進入 AI 加速器市場。NVIDIA 的 NVFP4 公告可置於這一競爭環境中理解。
實務考量與限制
然而,將這些結果應用於生產環境仍涉及多項考量。首先,NVIDIA 公布的結果基於特定模型(Llama 3 8B)與特定訓練設定(MaxText 配方)。在不同模型架構、資料集或訓練超參數下是否會出現相似結果,仍需進一步驗證。
其次,10,000 個預訓練步驟可能僅代表完整訓練流程的一部分。大型模型的訓練步驟往往達數十萬至數百萬步,數值誤差可能在長時間訓練中累積。NVIDIA 是否已在更長的訓練過程中確認同樣的準確度維持,尚不明確。
第三,NVFP4 是專為 Blackwell 架構設計的格式,因此要運用這項能力,需要升級至最新硬體。使用現有 Hopper 或 Ampere 世代 GPU 的組織,無法立即受惠於這些功能。
未來展望
隨著 AI 模型規模與複雜度持續增加,低精度訓練的進展愈發重要。業界已開始討論擁有數兆參數的模型,而訓練這類模型所需的運算資源也持續攀升。NVFP4 之類的技術有助於緩和這種成長,並促成更有效率的訓練。
此外,低精度格式在推論階段也可能扮演重要角色。當訓練完成的模型部署至生產環境時,較低精度可能意味著更快的回應時間與更低的營運成本。若訓練與推論都能使用相同的低精度格式,整體 AI 管線的效率可能進一步提升。
NVIDIA 的公告顯示,硬體製造商、框架開發者與模型研究人員之間的合作,能夠帶來實際的效能改善。JAX 與 MaxText 社群採用 NVFP4 的速度,以及是否能在其他模型與任務中重現類似結果,將有助於決定這項技術的長期影響。
低精度格式的採用也具有經濟與環境層面的意涵。縮短訓練時間可降低電力消耗,進而有助於減少資料中心營運成本與碳排放。在 AI 產業面臨永續壓力之際,高效率訓練技術提供了一種同時回應環境與經濟考量的方式。
構建者啟示
- 使用 Blackwell GPU 的 JAX 訓練管線可整合 MaxText 與 NVFP4,將訓練時間與成本最多降低 73%,其中 Llama 系列模型的相關效益尤為明顯。
- 規劃新訓練基礎設施的團隊,可評估能夠運用 Blackwell 架構低精度能力的框架(JAX,以及未來可能的 PyTorch 支援),並注意現有 Hopper 世代硬體不支援這些特定最佳化。
- 在正式部署前,應以自有模型與資料驗證 NVFP4 對準確度的影響,特別是檢查長時間訓練與不同超參數設定下的數值穩定性。
Want follow-up alerts? Subscribe by email after reading the public article.
Market lens
On-device AI shifts attention from data-center chips to memory allocation and device margins
The useful read is whether local AI features create measurable pressure on memory mix, pricing, and product release schedules.
Impact path
Device AI → memory pressure
Signals to watch
- LPDDR and HBM allocation commentary
- AI PC and phone memory configurations
- Supplier lead times, spot pricing, and margin guidance
Verification schedule
D+1 · Jun 13
Do OEM launches raise baseline memory specs?
D+3 · Jun 15
Do suppliers change allocation or pricing language?
D+7 · Jun 19
Do device margins absorb or pass through memory cost?
Informational context only — not investment, legal, tax, or financial advice.
視覺簡報
A simplified workflow showing how JAX and MaxText can use NVFP4 on Blackwell GPUs to speed up model training.
更正与安全
See a factual, privacy, rights, or safety issue? Review the corrections process or contact Guidances before relying on this article for important decisions.