IA
En desarrollo · 0 actualizaciónesFact 9/10NVIDIA anuncia Nemotron 3 Ultra para el razonamiento de agentes de IA de larga duración
Idioma del artículo
Español
NVIDIA ha anunciado Nemotron 3 Ultra, un modelo de mezcla de expertos con 550.000 millones de parámetros y 55.000 millones de parámetros activos. El modelo está diseñado para el razonamiento y la orquestación en sistemas de agentes de larga duración, y NVIDIA afirma que puede ofrecer un rendimiento cinco veces superior al de modelos abiertos comparables y reducir los costos de tareas agénticas hasta en un 30 por ciento.
Open article · no sign-in required
Fuentes y divulgación
The article accurately presents NVIDIA's claims regarding Nemotron 3 Ultra's specifications, purpose, and performance metrics (throughput and cost reduction). It also includes appropriate caveats about the lack of detailed benchmark conditions and the need for developers to validate performance against their own workloads. The article maintains a neutral tone and offers valuable insights for developers. Two minor contextual claims were not directly supported by the provided single source, but these do not undermine the core factual accuracy or reputation safety of the article.
Market lens
Agent runtime spending can spill into security, observability, and workflow infrastructure
The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.
Impact path
Runtime spend → infra stack
Signals to watch
- Procurement language around audit logs and cost ceilings
- Security and observability vendors attaching agent controls
- Workflow platforms exposing approval and tool-call governance
Verification schedule
D+1 · Jun 16
Do buyers repeat audit/cost-control requirements?
D+3 · Jun 18
Do vendors publish runtime-control SKUs or partnerships?
D+7 · Jun 22
Do budgets move from pilots into operating infrastructure?
Informational context only — not investment, legal, tax, or financial advice.
NVIDIA ha presentado Nemotron 3 Ultra, un modelo diseñado para mejorar el rendimiento de razonamiento en sistemas de agentes de larga duración. El modelo utiliza una arquitectura de mezcla de expertos (MoE) con 550.000 millones de parámetros, de los cuales 55.000 millones están activos durante la inferencia. Según el blog oficial para desarrolladores de NVIDIA, el modelo está diseñado para tareas de razonamiento de frontera y de orquestación en agentes de larga duración.
La arquitectura de mezcla de expertos activa solo un subconjunto de los parámetros totales durante la inferencia, lo que puede aumentar la velocidad y reducir el costo computacional. NVIDIA afirma que Nemotron 3 Ultra alcanza un rendimiento cinco veces superior en comparación con otros modelos abiertos de su categoría. La empresa también señala que el modelo puede reducir los costos de tareas agénticas hasta en un 30 por ciento. Estas cifras son relevantes porque los agentes de larga duración realizan pasos repetidos de razonamiento y toma de decisiones, lo que hace que el costo y la velocidad de las inferencias individuales sean importantes para la eficiencia operativa general.
Los agentes de larga duración son sistemas que van más allá de las interacciones de una sola consulta y respuesta. Descomponen tareas complejas en múltiples pasos y utilizan los resultados del razonamiento en cada etapa para determinar las acciones posteriores. En ámbitos como la atención al cliente, la asistencia en investigación y la automatización del desarrollo de software, los agentes pueden ejecutar decenas o cientos de llamadas de inferencia. En estos entornos, la velocidad y el costo de las inferencias individuales afectan la capacidad de respuesta y la eficiencia operativa del sistema en su conjunto. Nemotron 3 Ultra ha sido diseñado teniendo en cuenta estos requisitos.
NVIDIA ha respaldado cargas de trabajo de IA generativa para empresas a través de la serie Nemotron. Las versiones anteriores se centraban principalmente en tareas como la generación de texto, la síntesis y la clasificación. Nemotron 3 Ultra, en cambio, apunta al área más compleja de la orquestación de agentes. La orquestación implica coordinar múltiples herramientas, API y fuentes de datos, y vincular la salida de cada paso con la entrada del siguiente. Esto requiere capacidades que van más allá de la generación de texto, entre ellas la planificación, el seguimiento de estado y la gestión de errores.
La arquitectura de mezcla de expertos ha ganado atención en el desarrollo reciente de modelos de lenguaje de gran tamaño. Aunque el número total de parámetros es elevado, solo se activa un subconjunto de módulos expertos durante la inferencia, lo que reduce la carga computacional. Este enfoque puede preservar la expresividad del modelo al tiempo que reduce los costos de inferencia. En el caso de Nemotron 3 Ultra, solo 55.000 millones de los 550.000 millones de parámetros están activos, lo que en teoría permite un rendimiento superior con un costo de inferencia similar al de un modelo de 55.000 millones de parámetros.
Las cifras de mejora de rendimiento de cinco veces y de reducción de costos del 30 por ciento citadas por NVIDIA se basan en comparaciones con otros modelos abiertos de la misma categoría. Sin embargo, no se detallan las condiciones específicas de los puntos de referencia, los objetivos de comparación ni los métodos de medición en la información disponible. El rendimiento real en entornos de producción puede variar según el tipo de tarea, la configuración de la infraestructura, el tamaño del lote y otros factores. Los desarrolladores y las empresas deberían validar el rendimiento frente a sus propias cargas de trabajo.
La economía de los sistemas de agentes no está determinada únicamente por los costos de inferencia del modelo. También deben considerarse los costos asociados con las llamadas a API externas realizadas por el agente, el almacenamiento y la transferencia de datos, y las operaciones de infraestructura. La fiabilidad y la precisión también son factores importantes. Si un agente toma decisiones incorrectas con frecuencia y requiere reintentos, los costos generales pueden cambiar a pesar de una inferencia más rápida. Por lo tanto, el valor de Nemotron 3 Ultra debe evaluarse considerando la calidad del razonamiento y la estabilidad junto con la velocidad y el costo.
NVIDIA ha desarrollado la serie Nemotron teniendo en cuenta su integración con su infraestructura de GPU. Nemotron 3 Ultra puede combinarse con las tecnologías de optimización de inferencia de NVIDIA. Por ejemplo, herramientas como TensorRT-LLM y Triton Inference Server pueden permitir ganancias adicionales de rendimiento. Esto puede ofrecer ventajas como solución integrada para las empresas que utilizan hardware de NVIDIA, pero el rendimiento en otras plataformas de hardware requiere una validación independiente.
El mercado de agentes de larga duración todavía se encuentra en una fase inicial, pero está creciendo. Los sistemas de agentes se están desplegando en ámbitos como la automatización de la atención al cliente, la asistencia en investigación, las herramientas de desarrollo de software y el análisis de datos. Estos sistemas no realizan tareas únicas, sino que alcanzan objetivos complejos mediante la toma de decisiones en múltiples pasos. Como resultado, la eficiencia de inferencia y la estructura de costos son factores clave en la viabilidad comercial de los sistemas de agentes.
El lanzamiento de Nemotron 3 Ultra muestra que NVIDIA está orientando su estrategia hacia el mercado de sistemas de agentes. Al ofrecer un modelo especializado en la orquestación de agentes en lugar de un modelo de lenguaje de propósito general, la empresa busca dar soporte a cargas de trabajo específicas. Esto se alinea con una tendencia más amplia del sector, en la que el desarrollo de modelos está pasando de capacidades de propósito general a una optimización específica para tareas.
Sin embargo, el rendimiento real y la estabilidad operativa del modelo no pueden evaluarse por completo solo con la información disponible. Serán necesarios resultados de puntos de referencia, casos de uso en el mundo real y comentarios de la comunidad antes de poder determinar el valor práctico del modelo. En las comparaciones con modelos abiertos, también deben considerarse factores como los términos de licencia, las restricciones de despliegue y las posibilidades de personalización.
Implicaciones para constructores
- Los desarrolladores que construyan sistemas de agentes de larga duración deberían validar el rendimiento y la eficiencia de costos de Nemotron 3 Ultra frente a sus propias cargas de trabajo, midiendo cómo las mejoras en la velocidad de inferencia de la arquitectura de mezcla de expertos se manifiestan en los flujos reales de tareas de agentes.
- En las tareas de orquestación de agentes, es importante calcular el costo total de propiedad considerando no solo los costos de inferencia individuales, sino también las tasas de reintento, la precisión y la frecuencia de las llamadas a API externas en todo el flujo de trabajo.
- Los equipos que utilicen infraestructura de NVIDIA deberían explorar las posibilidades de integración con herramientas de optimización como TensorRT-LLM y evaluar con antelación las diferencias de rendimiento en otras plataformas de hardware para orientar las estrategias de despliegue.
Want follow-up alerts? Subscribe by email after reading the public article.
Market lens
Agent runtime spending can spill into security, observability, and workflow infrastructure
The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.
Impact path
Runtime spend → infra stack
Signals to watch
- Procurement language around audit logs and cost ceilings
- Security and observability vendors attaching agent controls
- Workflow platforms exposing approval and tool-call governance
Verification schedule
D+1 · Jun 16
Do buyers repeat audit/cost-control requirements?
D+3 · Jun 18
Do vendors publish runtime-control SKUs or partnerships?
D+7 · Jun 22
Do budgets move from pilots into operating infrastructure?
Informational context only — not investment, legal, tax, or financial advice.
Briefing visual
A long-running agent repeatedly routes each step through only the experts it needs, helping reduce compute and improve throughput.
Correcciones y seguridad
See a factual, privacy, rights, or safety issue? Review the corrections process or contact Guidances before relying on this article for important decisions.