IA
Em desenvolvimento · 0 atualizaçãoesFact 9/10NVIDIA anuncia Nemotron 3 Ultra para raciocínio de agentes de IA de longa duração
Idioma do artigo
Português (Brasil)
A NVIDIA anunciou o Nemotron 3 Ultra, um modelo mixture-of-experts com 550 bilhões de parâmetros e 55 bilhões de parâmetros ativos. O modelo foi projetado para raciocínio e orquestração em sistemas de agentes de longa duração, e a NVIDIA afirma que ele pode oferecer throughput cinco vezes maior do que modelos abertos comparáveis e reduzir custos de tarefas agentivas em até 30%.
Open article · no sign-in required
Fontes e divulgação
A NVIDIA apresentou o Nemotron 3 Ultra, um modelo projetado para melhorar o desempenho de raciocínio em sistemas de agentes de longa duração. O modelo utiliza uma arquitetura mixture-of-experts (MoE) com 550 bilhões de parâmetros, dos quais 55 bilhões ficam ativos durante a inferência. De acordo com o blog oficial para desenvolvedores da NVIDIA, o modelo foi concebido para tarefas de raciocínio de fronteira e orquestração em agentes de longa duração.
A arquitetura mixture-of-experts ativa apenas um subconjunto dos parâmetros totais durante a inferência, o que pode aumentar a velocidade e reduzir o custo computacional. A NVIDIA afirma que o Nemotron 3 Ultra alcança throughput cinco vezes maior em comparação com outros modelos abertos de sua categoria. A empresa também afirma que o modelo pode reduzir os custos de tarefas agentivas em até 30%. Esses números são relevantes porque agentes de longa duração executam etapas repetidas de raciocínio e tomada de decisão, tornando o custo e a velocidade de inferências individuais importantes para a eficiência operacional geral.
Agentes de longa duração são sistemas que vão além de interações únicas de pergunta e resposta. Eles dividem tarefas complexas em várias etapas e usam os resultados de raciocínio em cada fase para determinar as ações subsequentes. Em áreas como suporte ao cliente, assistência à pesquisa e automação de desenvolvimento de software, os agentes podem executar dezenas a centenas de chamadas de inferência. Em ambientes desse tipo, a velocidade e o custo de inferências individuais afetam a capacidade de resposta e a eficiência operacional do sistema como um todo. O Nemotron 3 Ultra foi projetado com esses requisitos em mente.
A NVIDIA tem apoiado cargas de trabalho de IA generativa corporativa por meio da série Nemotron. Versões anteriores concentravam-se principalmente em tarefas como geração de texto, sumarização e classificação. O Nemotron 3 Ultra, porém, mira a área mais complexa de orquestração de agentes. Orquestração envolve coordenar múltiplas ferramentas, APIs e fontes de dados, além de conectar a saída de cada etapa à entrada da próxima. Isso exige capacidades além da geração de texto, incluindo planejamento, acompanhamento de estado e tratamento de erros.
A arquitetura mixture-of-experts tem atraído atenção no desenvolvimento recente de grandes modelos de linguagem. Embora a contagem total de parâmetros seja elevada, apenas um subconjunto dos módulos especialistas é ativado durante a inferência, reduzindo a carga computacional. Essa abordagem pode preservar a expressividade do modelo ao mesmo tempo em que reduz os custos de inferência. No caso do Nemotron 3 Ultra, apenas 55 bilhões dos 550 bilhões de parâmetros ficam ativos, o que, em teoria, permite desempenho mais alto com um custo de inferência semelhante ao de um modelo de 55 bilhões de parâmetros.
Os números de melhoria de throughput em cinco vezes e de redução de custos em 30% citados pela NVIDIA se baseiam em comparações com outros modelos abertos da mesma categoria. No entanto, as condições específicas dos benchmarks, os alvos de comparação e os métodos de medição não são detalhados nas informações disponíveis. O desempenho real em ambientes de produção pode variar conforme o tipo de tarefa, a configuração da infraestrutura, o tamanho do lote e outros fatores. Desenvolvedores e empresas devem validar o desempenho em relação às suas próprias cargas de trabalho.
A economia de sistemas de agentes não é determinada apenas pelos custos de inferência do modelo. Também devem ser considerados os custos associados a chamadas externas de API feitas pelo agente, armazenamento e transferência de dados, e operações de infraestrutura. Confiabilidade e precisão também são fatores importantes. Se um agente tomar decisões incorretas com frequência e exigir novas tentativas, os custos totais podem mudar apesar de uma inferência mais rápida. Portanto, o valor do Nemotron 3 Ultra deve ser avaliado considerando qualidade de raciocínio e estabilidade, além de velocidade e custo.
A NVIDIA desenvolveu a série Nemotron com integração à sua infraestrutura de GPU em mente. O Nemotron 3 Ultra pode ser combinado com tecnologias de otimização de inferência da NVIDIA. Por exemplo, ferramentas como TensorRT-LLM e Triton Inference Server podem permitir ganhos adicionais de desempenho. Isso pode oferecer vantagens como solução integrada para empresas que utilizam hardware da NVIDIA, mas o desempenho em outras plataformas de hardware requer validação separada.
O mercado de agentes de longa duração ainda está em estágio inicial, mas está em crescimento. Sistemas de agentes estão sendo implantados em áreas como automação de suporte ao cliente, assistência à pesquisa, ferramentas de desenvolvimento de software e análise de dados. Esses sistemas não executam tarefas únicas, mas alcançam objetivos complexos por meio de tomada de decisão em múltiplas etapas. Como resultado, a eficiência de inferência e a estrutura de custos são fatores centrais para a viabilidade comercial dos sistemas de agentes.
O lançamento do Nemotron 3 Ultra mostra que a NVIDIA está direcionando sua atuação para o mercado de sistemas de agentes. Ao oferecer um modelo especializado em orquestração de agentes, em vez de um modelo de linguagem de uso geral, a empresa busca atender cargas de trabalho específicas. Isso se alinha a uma tendência mais ampla do setor, na qual o desenvolvimento de modelos está migrando de capacidades de uso geral para otimização específica por tarefa.
No entanto, o desempenho real e a estabilidade operacional do modelo não podem ser avaliados integralmente com base apenas nas informações disponíveis. Resultados de benchmarks, casos de uso no mundo real e feedback da comunidade serão necessários antes que o valor prático do modelo possa ser determinado. Em comparações com modelos abertos, fatores como termos de licenciamento, restrições de implantação e possibilidades de personalização também devem ser considerados.
Market lens
Agent runtime spending can spill into security, observability, and workflow infrastructure
The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.
Impact path
Runtime spend → infra stack
Signals to watch
- Procurement language around audit logs and cost ceilings
- Security and observability vendors attaching agent controls
- Workflow platforms exposing approval and tool-call governance
Verification schedule
D+1 · Jun 16
Do buyers repeat audit/cost-control requirements?
D+3 · Jun 18
Do vendors publish runtime-control SKUs or partnerships?
D+7 · Jun 22
Do budgets move from pilots into operating infrastructure?
Informational context only — not investment, legal, tax, or financial advice.
Implicações para builders
- Desenvolvedores que constroem sistemas de agentes de longa duração devem validar o throughput e a eficiência de custos do Nemotron 3 Ultra em relação às suas próprias cargas de trabalho, medindo como as melhorias de velocidade de inferência da arquitetura mixture-of-experts aparecem nos fluxos reais de tarefas dos agentes.
- Em tarefas de orquestração de agentes, é importante calcular o custo total de propriedade considerando não apenas os custos de inferência individuais, mas também as taxas de repetição, a precisão e a frequência de chamadas externas de API em todo o fluxo de trabalho.
- Equipes que utilizam a infraestrutura da NVIDIA devem explorar possibilidades de integração com ferramentas de otimização como o TensorRT-LLM e avaliar com antecedência as diferenças de desempenho em outras plataformas de hardware para orientar as estratégias de implantação.
Want follow-up alerts? Subscribe by email after reading the public article.
Market lens
Agent runtime spending can spill into security, observability, and workflow infrastructure
The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.
Impact path
Runtime spend → infra stack
Signals to watch
- Procurement language around audit logs and cost ceilings
- Security and observability vendors attaching agent controls
- Workflow platforms exposing approval and tool-call governance
Verification schedule
D+1 · Jun 16
Do buyers repeat audit/cost-control requirements?
D+3 · Jun 18
Do vendors publish runtime-control SKUs or partnerships?
D+7 · Jun 22
Do budgets move from pilots into operating infrastructure?
Informational context only — not investment, legal, tax, or financial advice.
Briefing visual
A long-running agent repeatedly routes each step through only the experts it needs, helping reduce compute and improve throughput.
Correções e segurança
See a factual, privacy, rights, or safety issue? Review the corrections process or contact Guidances before relying on this article for important decisions.