Inicio/Semiconductores

Semiconductores

En curso · 1 actualizaciónFact 9/10

NVIDIA informa hasta un 73% más de velocidad en el entrenamiento de modelos JAX en GPU Blackwell con el formato NVFP4

Idioma del artículo

Español

NVIDIA anunció que su nuevo formato numérico NVFP4 en GPU con arquitectura Blackwell ofrece hasta un 73% más de velocidad en el entrenamiento de modelos de lenguaje de gran tamaño con el marco JAX, en comparación con la referencia FP8. La empresa informó que mantuvo curvas de pérdida de entrenamiento similares durante 10.000 pasos de preentrenamiento al entrenar Llama 3 8B con la receta MaxText.

Guidances Staff · Updated June 12, 2026 · Fuentes revisadas

Open article · no sign-in required

Editorial illustration · June 12, 2026

NVIDIA says its Blackwell GPUs can train JAX models faster with NVFP4, a lower-precision format designed to improve efficiency.

Fuentes y divulgación

View source at developer.nvidia.com

The article presents factual, well-sourced claims about NVIDIA's NVFP4 performance on Blackwell GPUs. All key technical claims (73% speedup, 1.31×–1.73× range, 10,000 training steps, Llama 3 8B model, no measurable accuracy loss) are directly supported by the NVIDIA developer blog and arxiv paper. The article maintains neutral, informational language throughout, avoiding disparagement or reputation-damaging statements. It appropriately contextualizes competitive landscape without making pejorative comparisons. The practical considerations section responsibly notes validation needs and hardware-specific constraints. Minor deduction for one instance of slightly speculative framing ('can be seen as an attempt to maintain technical leadership') which, while mild and contextually appropriate, edges toward motive speculation. Overall, this is high-quality, fact-based technical reporting that meets all reputation-safety and verification standards.

Market lens

On-device AI shifts attention from data-center chips to memory allocation and device margins

The useful read is whether local AI features create measurable pressure on memory mix, pricing, and product release schedules.

Impact path

Device AI → memory pressure

Signals to watch

LPDDR and HBM allocation commentary
AI PC and phone memory configurations
Supplier lead times, spot pricing, and margin guidance

Verification schedule

D+1 · Jun 13

Do OEM launches raise baseline memory specs?

D+3 · Jun 15

Do suppliers change allocation or pricing language?

D+7 · Jun 19

Do device margins absorb or pass through memory cost?

Informational context only — not investment, legal, tax, or financial advice.

NVIDIA ha divulgado mejoras de rendimiento para el entrenamiento de modelos de lenguaje de gran tamaño mediante un nuevo formato numérico de baja precisión denominado NVFP4 en sus más recientes GPU con arquitectura Blackwell. El anuncio, basado en experimentos con el marco JAX de Google y la biblioteca de entrenamiento MaxText, refleja el esfuerzo continuo de la industria por reducir el costo y el tiempo necesarios para el entrenamiento de modelos de inteligencia artificial.

Según una publicación en el blog para desarrolladores, NVIDIA logró aceleraciones que oscilaron entre 1,31× y 1,73× frente a una referencia FP8 al entrenar el modelo Llama 3 8B en GPU Blackwell utilizando el formato NVFP4. Esto representa una mejora de rendimiento de hasta el 73%, y la empresa informó que estas ganancias se obtuvieron sin pérdida medible de precisión. La compañía señaló que mantuvo una curva de pérdida de entrenamiento similar a lo largo de 10.000 pasos de preentrenamiento.

Equilibrio entre precisión numérica y eficiencia de entrenamiento

La precisión numérica en el entrenamiento de modelos de IA implica un equilibrio entre velocidad de cómputo, uso de memoria y calidad final del modelo. Tradicionalmente, el formato de coma flotante de 32 bits (FP32) era el estándar, pero en los últimos años la industria se ha desplazado hacia formatos de 16 bits (FP16), Brain Float 16 (BF16) y 8 bits (FP8). Cada paso redujo la precisión a cambio de mayor rendimiento computacional y menores requisitos de ancho de banda de memoria.

NVFP4 amplía esta tendencia con un formato de coma flotante de 4 bits. En teoría, un formato de 4 bits puede reducir a la mitad el uso de memoria y aumentar el rendimiento en comparación con los formatos de 8 bits. Sin embargo, en la práctica, el rango numérico representable y la precisión son limitados, lo que puede generar inestabilidad numérica o problemas de convergencia durante el entrenamiento.

Los resultados de NVIDIA son relevantes porque sugieren que NVFP4 puede funcionar en el entrenamiento real de modelos de lenguaje de gran tamaño sin pérdida de precisión, a pesar de estas preocupaciones teóricas. La empresa informó que se mantuvieron curvas de pérdida de entrenamiento similares durante 10.000 pasos de preentrenamiento, lo que indica que el modelo aprendió con un patrón comparable al de FP8.

El papel de la arquitectura Blackwell

Estas mejoras de rendimiento están estrechamente vinculadas al diseño de hardware de las GPU Blackwell. Blackwell es la arquitectura más reciente de GPU para centros de datos de NVIDIA e incorpora aceleradores de hardware dedicados para aritmética de baja precisión. El formato NVFP4 está diseñado para aprovechar estas capacidades de hardware, combinando optimización de software con soporte de hardware.

MaxText es una biblioteca de entrenamiento de alto rendimiento basada en JAX desarrollada por Google, que ofrece implementaciones para el entrenamiento de modelos de lenguaje de gran tamaño. El énfasis de NVIDIA en la integración con MaxText destaca la colaboración dentro del ecosistema JAX y sugiere que las capacidades de Blackwell pueden aprovecharse en marcos distintos de PyTorch o TensorFlow.

Contexto sectorial y panorama competitivo

Este anuncio forma parte de un esfuerzo más amplio de la industria por reducir los costos de entrenamiento de IA. El entrenamiento de modelos de lenguaje de gran tamaño puede requerir un gasto computacional considerable, con tiempos de entrenamiento que van de semanas a meses. Una aceleración del 73% tiene el potencial de reducir estos costos y plazos, haciendo que el entrenamiento de modelos a gran escala sea más accesible para un mayor número de organizaciones.

Los competidores avanzan en direcciones similares. AMD está desarrollando sus propios formatos de baja precisión, las TPU de Google están optimizadas en torno a formatos Brain Float, e Intel y otros nuevos participantes buscan posicionarse en el mercado de aceleradores de IA. El anuncio de NVFP4 de NVIDIA puede entenderse en el contexto de este entorno competitivo.

Consideraciones prácticas y limitaciones

No obstante, aplicar estos resultados en entornos de producción implica varias consideraciones. En primer lugar, los resultados divulgados por NVIDIA se basan en un modelo específico (Llama 3 8B) y en una configuración de entrenamiento específica (receta MaxText). Será necesaria validación adicional para determinar si resultados similares se producirán con distintas arquitecturas de modelo, conjuntos de datos o hiperparámetros de entrenamiento.

En segundo lugar, 10.000 pasos de preentrenamiento pueden representar solo una parte del proceso completo de entrenamiento. Los modelos grandes pasan por cientos de miles o millones de pasos de entrenamiento, y los errores numéricos podrían acumularse durante periodos prolongados. No está claro si NVIDIA ha confirmado el mismo mantenimiento de precisión en ejecuciones de entrenamiento más largas.

En tercer lugar, NVFP4 es un formato específico de la arquitectura Blackwell, por lo que aprovecharlo requiere actualizar al hardware más reciente. Las organizaciones que utilizan GPU de las generaciones Hopper o Ampere no pueden beneficiarse de inmediato de estas capacidades.

Perspectivas futuras

Los avances en entrenamiento de baja precisión son importantes a medida que la escala y la complejidad de los modelos de IA continúan aumentando. La industria ya discute modelos con billones de parámetros, y los recursos de cómputo necesarios para entrenarlos siguen creciendo. Tecnologías como NVFP4 pueden ayudar a moderar este crecimiento y permitir un entrenamiento más eficiente.

Además, los formatos de baja precisión pueden desempeñar un papel importante en la etapa de inferencia. Al desplegar modelos entrenados en entornos de producción, una menor precisión puede traducirse en tiempos de respuesta más rápidos y menores costos operativos. Si el mismo formato de baja precisión puede utilizarse tanto para entrenamiento como para inferencia, la eficiencia de toda la canalización de IA puede mejorar.

El anuncio de NVIDIA muestra cómo la colaboración entre fabricantes de hardware, desarrolladores de marcos y investigadores de modelos puede dar lugar a mejoras prácticas de rendimiento. La rapidez con la que las comunidades de JAX y MaxText adopten NVFP4, y si pueden reproducirse resultados similares con otros modelos y tareas, ayudará a determinar el impacto a largo plazo de esta tecnología.

La adopción de formatos de baja precisión también tiene implicaciones económicas y ambientales. La reducción del tiempo de entrenamiento puede disminuir el consumo de energía, lo que a su vez puede reducir tanto los costos operativos de los centros de datos como las emisiones de carbono. A medida que la industria de la IA enfrenta presiones de sostenibilidad, las tecnologías de entrenamiento eficientes ofrecen una vía para abordar consideraciones ambientales y económicas al mismo tiempo.

Implicaciones para Builders

Las canalizaciones de entrenamiento basadas en JAX que utilizan GPU Blackwell pueden integrar MaxText y NVFP4 para reducir el tiempo y el costo de entrenamiento hasta en un 73%, con beneficios señalados especialmente para modelos de la familia Llama.
Los equipos que planifican nueva infraestructura de entrenamiento pueden evaluar marcos que aprovechen las capacidades de baja precisión de la arquitectura Blackwell (JAX, con posible compatibilidad futura con PyTorch), teniendo en cuenta que el hardware existente de la generación Hopper no admite estas optimizaciones específicas.
Antes del despliegue en producción, es importante validar con sus propios modelos y datos el impacto de NVFP4 en la precisión, en particular comprobando la estabilidad numérica en ejecuciones de entrenamiento prolongadas y en diversos ajustes de hiperparámetros.

Want follow-up alerts? Subscribe by email after reading the public article.

Market lens

On-device AI shifts attention from data-center chips to memory allocation and device margins

The useful read is whether local AI features create measurable pressure on memory mix, pricing, and product release schedules.

Impact path

Device AI → memory pressure

Signals to watch

LPDDR and HBM allocation commentary
AI PC and phone memory configurations
Supplier lead times, spot pricing, and margin guidance

Verification schedule

D+1 · Jun 13

Do OEM launches raise baseline memory specs?

D+3 · Jun 15

Do suppliers change allocation or pricing language?

D+7 · Jun 19

Do device margins absorb or pass through memory cost?

Informational context only — not investment, legal, tax, or financial advice.

Set profile for personalized briefings

◆

Briefing visual

Diagram of JAX and MaxText using NVFP4 on Blackwell GPUs to accelerate the training loop and produce faster results.

A simplified workflow showing how JAX and MaxText can use NVFP4 on Blackwell GPUs to speed up model training.

Correcciones y seguridad

See a factual, privacy, rights, or safety issue? Review the corrections process or contact Guidances before relying on this article for important decisions.

Report a correction, privacy, rights, or safety issue

#Semiconductores#Desarrollador

◆

Más de la redacción

Semiconductores

Última hora

China como un bolsillo de valor relativo en las acciones de IA

El titular y el fragmento de WSJ sugieren una discusión de valor relativo: mientras las valoraciones vinculadas a la IA han subido con fuerza en Estados Unidos y en partes de Asia, algunas acciones de IA con exposición a China siguen describiéndose como baratas. Con la información de metadatos disponible, no es posible identificar valores concretos, métricas de valoración ni una reacción de mercado confirmada. Este análisis se mantiene, por tanto, en un plano prudente y atribuido, centrado en si la narrativa de baratura relativa refleja fundamentos, descuentos por política, controles de capital o simplemente la ausencia del mismo impulso de valoración observado en otros mercados. Se trata de contexto de mercado, no de asesoramiento de inversión.

Guidances Staff · Updated June 15, 2026

Semiconductores

NVIDIA utiliza su concepto de "fábrica de IA" para enfatizar el diseño integrado de centros de datos

NVIDIA ha presentado su concepto de "fábrica de IA" en su página de soluciones, describiendo la energía, los chips, la infraestructura, los modelos y las aplicaciones como un solo sistema. El material disponible es limitado, pero muestra el enfoque de NVIDIA sobre la infraestructura de IA como un problema de diseño integrado y no como un conjunto de componentes separados.

Guidances Staff · Updated June 15, 2026

Semiconductores

Última hora

Cómo la demanda de IA está alcanzando los materiales: qué sugiere una nota de mercado sobre Mitsubishi Gas Chemical

Una nota de mercado citada por WSJ indica que Nomura considera que Mitsubishi Gas Chemical podría beneficiarse de la demanda vinculada a la IA y de vientos favorables en materiales de empaquetado. El dato verificado es limitado, pero la nota apunta a un patrón más amplio: la expansión de la IA está llegando más allá de los chips y los modelos, hacia sustratos, empaquetado y cadenas de suministro de materiales.

Guidances Staff · Updated June 15, 2026