En desarrollo · 0 actualizaciónesFact 9/10

NVIDIA anuncia Nemotron 3 Ultra para el razonamiento de agentes de IA de larga duración

Idioma del artículo

Español

NVIDIA ha anunciado Nemotron 3 Ultra, un modelo de mezcla de expertos con 550.000 millones de parámetros y 55.000 millones de parámetros activos. El modelo está diseñado para el razonamiento y la orquestación en sistemas de agentes de larga duración, y NVIDIA afirma que puede ofrecer un rendimiento cinco veces superior al de modelos abiertos comparables y reducir los costos de tareas agénticas hasta en un 30 por ciento.

Guidances Staff · Updated June 15, 2026 · Fuentes revisadas

Open article · no sign-in required

Editorial illustration · June 15, 2026

Nemotron 3 Ultra is positioned as a modular model for long-running agent reasoning and orchestration, where efficiency depends on routing work through specialized components.

Fuentes y divulgación

View source at developer.nvidia.com

The article accurately presents NVIDIA's claims regarding Nemotron 3 Ultra's specifications, purpose, and performance metrics (throughput and cost reduction). It also includes appropriate caveats about the lack of detailed benchmark conditions and the need for developers to validate performance against their own workloads. The article maintains a neutral tone and offers valuable insights for developers. Two minor contextual claims were not directly supported by the provided single source, but these do not undermine the core factual accuracy or reputation safety of the article.

Market lens

Agent runtime spending can spill into security, observability, and workflow infrastructure

The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.

Impact path

Runtime spend → infra stack

Signals to watch

Procurement language around audit logs and cost ceilings
Security and observability vendors attaching agent controls
Workflow platforms exposing approval and tool-call governance

Verification schedule

D+1 · Jun 16

Do buyers repeat audit/cost-control requirements?

D+3 · Jun 18

Do vendors publish runtime-control SKUs or partnerships?

D+7 · Jun 22

Do budgets move from pilots into operating infrastructure?

Informational context only — not investment, legal, tax, or financial advice.

NVIDIA ha presentado Nemotron 3 Ultra, un modelo diseñado para mejorar el rendimiento de razonamiento en sistemas de agentes de larga duración. El modelo utiliza una arquitectura de mezcla de expertos (MoE) con 550.000 millones de parámetros, de los cuales 55.000 millones están activos durante la inferencia. Según el blog oficial para desarrolladores de NVIDIA, el modelo está diseñado para tareas de razonamiento de frontera y de orquestación en agentes de larga duración.

La arquitectura de mezcla de expertos activa solo un subconjunto de los parámetros totales durante la inferencia, lo que puede aumentar la velocidad y reducir el costo computacional. NVIDIA afirma que Nemotron 3 Ultra alcanza un rendimiento cinco veces superior en comparación con otros modelos abiertos de su categoría. La empresa también señala que el modelo puede reducir los costos de tareas agénticas hasta en un 30 por ciento. Estas cifras son relevantes porque los agentes de larga duración realizan pasos repetidos de razonamiento y toma de decisiones, lo que hace que el costo y la velocidad de las inferencias individuales sean importantes para la eficiencia operativa general.

Los agentes de larga duración son sistemas que van más allá de las interacciones de una sola consulta y respuesta. Descomponen tareas complejas en múltiples pasos y utilizan los resultados del razonamiento en cada etapa para determinar las acciones posteriores. En ámbitos como la atención al cliente, la asistencia en investigación y la automatización del desarrollo de software, los agentes pueden ejecutar decenas o cientos de llamadas de inferencia. En estos entornos, la velocidad y el costo de las inferencias individuales afectan la capacidad de respuesta y la eficiencia operativa del sistema en su conjunto. Nemotron 3 Ultra ha sido diseñado teniendo en cuenta estos requisitos.

NVIDIA ha respaldado cargas de trabajo de IA generativa para empresas a través de la serie Nemotron. Las versiones anteriores se centraban principalmente en tareas como la generación de texto, la síntesis y la clasificación. Nemotron 3 Ultra, en cambio, apunta al área más compleja de la orquestación de agentes. La orquestación implica coordinar múltiples herramientas, API y fuentes de datos, y vincular la salida de cada paso con la entrada del siguiente. Esto requiere capacidades que van más allá de la generación de texto, entre ellas la planificación, el seguimiento de estado y la gestión de errores.

La arquitectura de mezcla de expertos ha ganado atención en el desarrollo reciente de modelos de lenguaje de gran tamaño. Aunque el número total de parámetros es elevado, solo se activa un subconjunto de módulos expertos durante la inferencia, lo que reduce la carga computacional. Este enfoque puede preservar la expresividad del modelo al tiempo que reduce los costos de inferencia. En el caso de Nemotron 3 Ultra, solo 55.000 millones de los 550.000 millones de parámetros están activos, lo que en teoría permite un rendimiento superior con un costo de inferencia similar al de un modelo de 55.000 millones de parámetros.

Las cifras de mejora de rendimiento de cinco veces y de reducción de costos del 30 por ciento citadas por NVIDIA se basan en comparaciones con otros modelos abiertos de la misma categoría. Sin embargo, no se detallan las condiciones específicas de los puntos de referencia, los objetivos de comparación ni los métodos de medición en la información disponible. El rendimiento real en entornos de producción puede variar según el tipo de tarea, la configuración de la infraestructura, el tamaño del lote y otros factores. Los desarrolladores y las empresas deberían validar el rendimiento frente a sus propias cargas de trabajo.

La economía de los sistemas de agentes no está determinada únicamente por los costos de inferencia del modelo. También deben considerarse los costos asociados con las llamadas a API externas realizadas por el agente, el almacenamiento y la transferencia de datos, y las operaciones de infraestructura. La fiabilidad y la precisión también son factores importantes. Si un agente toma decisiones incorrectas con frecuencia y requiere reintentos, los costos generales pueden cambiar a pesar de una inferencia más rápida. Por lo tanto, el valor de Nemotron 3 Ultra debe evaluarse considerando la calidad del razonamiento y la estabilidad junto con la velocidad y el costo.

NVIDIA ha desarrollado la serie Nemotron teniendo en cuenta su integración con su infraestructura de GPU. Nemotron 3 Ultra puede combinarse con las tecnologías de optimización de inferencia de NVIDIA. Por ejemplo, herramientas como TensorRT-LLM y Triton Inference Server pueden permitir ganancias adicionales de rendimiento. Esto puede ofrecer ventajas como solución integrada para las empresas que utilizan hardware de NVIDIA, pero el rendimiento en otras plataformas de hardware requiere una validación independiente.

El mercado de agentes de larga duración todavía se encuentra en una fase inicial, pero está creciendo. Los sistemas de agentes se están desplegando en ámbitos como la automatización de la atención al cliente, la asistencia en investigación, las herramientas de desarrollo de software y el análisis de datos. Estos sistemas no realizan tareas únicas, sino que alcanzan objetivos complejos mediante la toma de decisiones en múltiples pasos. Como resultado, la eficiencia de inferencia y la estructura de costos son factores clave en la viabilidad comercial de los sistemas de agentes.

El lanzamiento de Nemotron 3 Ultra muestra que NVIDIA está orientando su estrategia hacia el mercado de sistemas de agentes. Al ofrecer un modelo especializado en la orquestación de agentes en lugar de un modelo de lenguaje de propósito general, la empresa busca dar soporte a cargas de trabajo específicas. Esto se alinea con una tendencia más amplia del sector, en la que el desarrollo de modelos está pasando de capacidades de propósito general a una optimización específica para tareas.

Sin embargo, el rendimiento real y la estabilidad operativa del modelo no pueden evaluarse por completo solo con la información disponible. Serán necesarios resultados de puntos de referencia, casos de uso en el mundo real y comentarios de la comunidad antes de poder determinar el valor práctico del modelo. En las comparaciones con modelos abiertos, también deben considerarse factores como los términos de licencia, las restricciones de despliegue y las posibilidades de personalización.

Implicaciones para constructores

Los desarrolladores que construyan sistemas de agentes de larga duración deberían validar el rendimiento y la eficiencia de costos de Nemotron 3 Ultra frente a sus propias cargas de trabajo, midiendo cómo las mejoras en la velocidad de inferencia de la arquitectura de mezcla de expertos se manifiestan en los flujos reales de tareas de agentes.
En las tareas de orquestación de agentes, es importante calcular el costo total de propiedad considerando no solo los costos de inferencia individuales, sino también las tasas de reintento, la precisión y la frecuencia de las llamadas a API externas en todo el flujo de trabajo.
Los equipos que utilicen infraestructura de NVIDIA deberían explorar las posibilidades de integración con herramientas de optimización como TensorRT-LLM y evaluar con antelación las diferencias de rendimiento en otras plataformas de hardware para orientar las estrategias de despliegue.

Want follow-up alerts? Subscribe by email after reading the public article.

Market lens

Agent runtime spending can spill into security, observability, and workflow infrastructure

The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.

Impact path

Runtime spend → infra stack

Signals to watch

Procurement language around audit logs and cost ceilings
Security and observability vendors attaching agent controls
Workflow platforms exposing approval and tool-call governance

Verification schedule

D+1 · Jun 16

Do buyers repeat audit/cost-control requirements?

D+3 · Jun 18

Do vendors publish runtime-control SKUs or partnerships?

D+7 · Jun 22

Do budgets move from pilots into operating infrastructure?

Informational context only — not investment, legal, tax, or financial advice.

Set profile for personalized briefings

◆

Briefing visual

A long-running agent repeatedly routes each step through only the experts it needs, helping reduce compute and improve throughput.

Correcciones y seguridad

See a factual, privacy, rights, or safety issue? Review the corrections process or contact Guidances before relying on this article for important decisions.

Report a correction, privacy, rights, or safety issue

#IA#Desarrollador

◆

Más de la redacción

Última hora

El giro de Meta hacia la IA entra en su prueba comercial: la parte difícil es vender la estrategia

Meta lleva un año bajo una nueva estrategia de IA liderada por Alexandr Wang, y el fragmento de CNBC indica que la empresa ha lanzado ahora su propio modelo fundacional, Muse Spark. El modelo se describe como el primer modelo fundacional propietario de Meta, lo que señala un alejamiento de una postura estrictamente de código abierto o de pesos abiertos. La cuestión central no es solo el avance técnico, sino si la empresa puede convencer a los mercados de que el gasto está comercialmente justificado. Este análisis utiliza únicamente los metadatos y el fragmento disponibles para examinar la inversión de Meta en IA, su posicionamiento competitivo, las implicaciones del capex y la lectura para los mercados públicos. Se trata solo de contexto de mercado, no de asesoramiento de inversión.

Guidances Staff · Updated June 15, 2026

La advertencia de Carney sobre la dependencia de la IA pone el acceso a los modelos y la resiliencia de las compras en el centro del debate

El primer ministro canadiense, Mark Carney, afirmó que las restricciones de Estados Unidos al acceso a los modelos más recientes de IA de Anthropic ponen de relieve los riesgos de depender de un grupo reducido de proveedores estadounidenses. La metainformación disponible es limitada y no confirma la restricción exacta ni la reacción del mercado. Aun así, el comentario se sitúa en la intersección entre infraestructura de IA, contratación pública, residencia de datos y diversificación de la cadena de suministro norteamericana.

Guidances Staff · Updated June 15, 2026

Última hora

Anthropic corta el acceso a Fable 5 y Mythos 5 tras una directiva gubernamental, lo que pone de relieve la relación entre la implementación de IA y el cumplimiento normativo

CNBC informa que Anthropic deshabilitó el acceso a sus modelos Fable 5 y Mythos 5 tras una directiva de control de exportaciones del Gobierno de Estados Unidos. El episodio muestra cómo la disponibilidad de los modelos puede verse determinada no solo por la capacidad y la demanda, sino también por la jurisdicción, los controles de identidad y las operaciones de cumplimiento.

Guidances Staff · Updated June 15, 2026