Em desenvolvimento · 0 atualizaçãoesFact 9/10

NVIDIA anuncia Nemotron 3 Ultra para raciocínio de agentes de IA de longa duração

Idioma do artigo

Português (Brasil)

A NVIDIA anunciou o Nemotron 3 Ultra, um modelo mixture-of-experts com 550 bilhões de parâmetros e 55 bilhões de parâmetros ativos. O modelo foi projetado para raciocínio e orquestração em sistemas de agentes de longa duração, e a NVIDIA afirma que ele pode oferecer throughput cinco vezes maior do que modelos abertos comparáveis e reduzir custos de tarefas agentivas em até 30%.

Guidances Staff · Updated June 15, 2026 · Fontes revisadas

Open article · no sign-in required

Editorial illustration · June 15, 2026

Nemotron 3 Ultra is positioned as a modular model for long-running agent reasoning and orchestration, where efficiency depends on routing work through specialized components.

Fontes e divulgação

View source at developer.nvidia.com

A NVIDIA apresentou o Nemotron 3 Ultra, um modelo projetado para melhorar o desempenho de raciocínio em sistemas de agentes de longa duração. O modelo utiliza uma arquitetura mixture-of-experts (MoE) com 550 bilhões de parâmetros, dos quais 55 bilhões ficam ativos durante a inferência. De acordo com o blog oficial para desenvolvedores da NVIDIA, o modelo foi concebido para tarefas de raciocínio de fronteira e orquestração em agentes de longa duração.

A arquitetura mixture-of-experts ativa apenas um subconjunto dos parâmetros totais durante a inferência, o que pode aumentar a velocidade e reduzir o custo computacional. A NVIDIA afirma que o Nemotron 3 Ultra alcança throughput cinco vezes maior em comparação com outros modelos abertos de sua categoria. A empresa também afirma que o modelo pode reduzir os custos de tarefas agentivas em até 30%. Esses números são relevantes porque agentes de longa duração executam etapas repetidas de raciocínio e tomada de decisão, tornando o custo e a velocidade de inferências individuais importantes para a eficiência operacional geral.

Agentes de longa duração são sistemas que vão além de interações únicas de pergunta e resposta. Eles dividem tarefas complexas em várias etapas e usam os resultados de raciocínio em cada fase para determinar as ações subsequentes. Em áreas como suporte ao cliente, assistência à pesquisa e automação de desenvolvimento de software, os agentes podem executar dezenas a centenas de chamadas de inferência. Em ambientes desse tipo, a velocidade e o custo de inferências individuais afetam a capacidade de resposta e a eficiência operacional do sistema como um todo. O Nemotron 3 Ultra foi projetado com esses requisitos em mente.

A NVIDIA tem apoiado cargas de trabalho de IA generativa corporativa por meio da série Nemotron. Versões anteriores concentravam-se principalmente em tarefas como geração de texto, sumarização e classificação. O Nemotron 3 Ultra, porém, mira a área mais complexa de orquestração de agentes. Orquestração envolve coordenar múltiplas ferramentas, APIs e fontes de dados, além de conectar a saída de cada etapa à entrada da próxima. Isso exige capacidades além da geração de texto, incluindo planejamento, acompanhamento de estado e tratamento de erros.

A arquitetura mixture-of-experts tem atraído atenção no desenvolvimento recente de grandes modelos de linguagem. Embora a contagem total de parâmetros seja elevada, apenas um subconjunto dos módulos especialistas é ativado durante a inferência, reduzindo a carga computacional. Essa abordagem pode preservar a expressividade do modelo ao mesmo tempo em que reduz os custos de inferência. No caso do Nemotron 3 Ultra, apenas 55 bilhões dos 550 bilhões de parâmetros ficam ativos, o que, em teoria, permite desempenho mais alto com um custo de inferência semelhante ao de um modelo de 55 bilhões de parâmetros.

Os números de melhoria de throughput em cinco vezes e de redução de custos em 30% citados pela NVIDIA se baseiam em comparações com outros modelos abertos da mesma categoria. No entanto, as condições específicas dos benchmarks, os alvos de comparação e os métodos de medição não são detalhados nas informações disponíveis. O desempenho real em ambientes de produção pode variar conforme o tipo de tarefa, a configuração da infraestrutura, o tamanho do lote e outros fatores. Desenvolvedores e empresas devem validar o desempenho em relação às suas próprias cargas de trabalho.

A economia de sistemas de agentes não é determinada apenas pelos custos de inferência do modelo. Também devem ser considerados os custos associados a chamadas externas de API feitas pelo agente, armazenamento e transferência de dados, e operações de infraestrutura. Confiabilidade e precisão também são fatores importantes. Se um agente tomar decisões incorretas com frequência e exigir novas tentativas, os custos totais podem mudar apesar de uma inferência mais rápida. Portanto, o valor do Nemotron 3 Ultra deve ser avaliado considerando qualidade de raciocínio e estabilidade, além de velocidade e custo.

A NVIDIA desenvolveu a série Nemotron com integração à sua infraestrutura de GPU em mente. O Nemotron 3 Ultra pode ser combinado com tecnologias de otimização de inferência da NVIDIA. Por exemplo, ferramentas como TensorRT-LLM e Triton Inference Server podem permitir ganhos adicionais de desempenho. Isso pode oferecer vantagens como solução integrada para empresas que utilizam hardware da NVIDIA, mas o desempenho em outras plataformas de hardware requer validação separada.

O mercado de agentes de longa duração ainda está em estágio inicial, mas está em crescimento. Sistemas de agentes estão sendo implantados em áreas como automação de suporte ao cliente, assistência à pesquisa, ferramentas de desenvolvimento de software e análise de dados. Esses sistemas não executam tarefas únicas, mas alcançam objetivos complexos por meio de tomada de decisão em múltiplas etapas. Como resultado, a eficiência de inferência e a estrutura de custos são fatores centrais para a viabilidade comercial dos sistemas de agentes.

O lançamento do Nemotron 3 Ultra mostra que a NVIDIA está direcionando sua atuação para o mercado de sistemas de agentes. Ao oferecer um modelo especializado em orquestração de agentes, em vez de um modelo de linguagem de uso geral, a empresa busca atender cargas de trabalho específicas. Isso se alinha a uma tendência mais ampla do setor, na qual o desenvolvimento de modelos está migrando de capacidades de uso geral para otimização específica por tarefa.

No entanto, o desempenho real e a estabilidade operacional do modelo não podem ser avaliados integralmente com base apenas nas informações disponíveis. Resultados de benchmarks, casos de uso no mundo real e feedback da comunidade serão necessários antes que o valor prático do modelo possa ser determinado. Em comparações com modelos abertos, fatores como termos de licenciamento, restrições de implantação e possibilidades de personalização também devem ser considerados.

Market lens

Agent runtime spending can spill into security, observability, and workflow infrastructure

The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.

Impact path

Runtime spend → infra stack

Signals to watch

Procurement language around audit logs and cost ceilings
Security and observability vendors attaching agent controls
Workflow platforms exposing approval and tool-call governance

Verification schedule

D+1 · Jun 16

Do buyers repeat audit/cost-control requirements?

D+3 · Jun 18

Do vendors publish runtime-control SKUs or partnerships?

D+7 · Jun 22

Do budgets move from pilots into operating infrastructure?

Informational context only — not investment, legal, tax, or financial advice.

Implicações para builders

Desenvolvedores que constroem sistemas de agentes de longa duração devem validar o throughput e a eficiência de custos do Nemotron 3 Ultra em relação às suas próprias cargas de trabalho, medindo como as melhorias de velocidade de inferência da arquitetura mixture-of-experts aparecem nos fluxos reais de tarefas dos agentes.
Em tarefas de orquestração de agentes, é importante calcular o custo total de propriedade considerando não apenas os custos de inferência individuais, mas também as taxas de repetição, a precisão e a frequência de chamadas externas de API em todo o fluxo de trabalho.
Equipes que utilizam a infraestrutura da NVIDIA devem explorar possibilidades de integração com ferramentas de otimização como o TensorRT-LLM e avaliar com antecedência as diferenças de desempenho em outras plataformas de hardware para orientar as estratégias de implantação.

Want follow-up alerts? Subscribe by email after reading the public article.

Market lens

Agent runtime spending can spill into security, observability, and workflow infrastructure

The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.

Impact path

Runtime spend → infra stack

Signals to watch

Procurement language around audit logs and cost ceilings
Security and observability vendors attaching agent controls
Workflow platforms exposing approval and tool-call governance

Verification schedule

D+1 · Jun 16

Do buyers repeat audit/cost-control requirements?

D+3 · Jun 18

Do vendors publish runtime-control SKUs or partnerships?

D+7 · Jun 22

Do budgets move from pilots into operating infrastructure?

Informational context only — not investment, legal, tax, or financial advice.

Set profile for personalized briefings

◆

Briefing visual

A long-running agent repeatedly routes each step through only the experts it needs, helping reduce compute and improve throughput.

Correções e segurança

See a factual, privacy, rights, or safety issue? Review the corrections process or contact Guidances before relying on this article for important decisions.

Report a correction, privacy, rights, or safety issue

#NVIDIANemotron3Ultra#mixtureofexpertsmodel#long-runningAIagents#agentorchestration#AIinferenceefficiency#agenticsystems

◆

Mais da redação

A ofensiva da Tesla por aprovação do FSD na Europa coloca em foco a verificação de dados de segurança e a confiança regulatória

A Reuters informou, com base em correspondência obtida por meio de pedidos de registros públicos, que a Tesla apresentou estatísticas de segurança de sua autoria a reguladores na Suécia e na Holanda como parte de sua تلاشa por aprovação europeia do Full Self-Driving (FSD). Pesquisadores independentes de segurança no trânsito disseram que a forma de apresentação dos números poderia ser enganosa, enquanto a autoridade veicular holandesa RDW afirmou que se baseia em seus próprios testes e análises, e não em alegações de marketing ou estatísticas externas. O episódio recoloca em foco a aprovação regulatória, os padrões de verificação de dados e o caminho de monetização de software para direção autônoma.

Guidances Staff · Updated June 17, 2026

Inclusão acelerada em índices para mega-IPOs: o que a entrada antecipada da SpaceX significa para investidores passivos e a estrutura de mercado

Provedores de índices, incluindo Nasdaq e FTSE Russell, estariam reduzindo o período de maturação para grandes IPOs — potencialmente para apenas cinco dias de negociação —, o que levanta questões estruturais sobre a integridade dos benchmarks, o risco de concentração em fundos passivos e a mecânica de compras forçadas quando gigantes privados como a SpaceX entram nos mercados públicos.

Guidances Staff · Updated June 17, 2026

Reino Unido avança para limites em redes sociais para menores de 16 anos, aumentando a pressão sobre plataformas e modelos de anúncios

O governo do Reino Unido afirma que avançará para restringir serviços de redes sociais para usuários com menos de 16 anos, recolocando verificação de idade, sistemas de recomendação, segmentação de anúncios e conformidade de segurança juvenil no centro das atenções. Os detalhes de aplicação ainda não estão claros, mas a direção da política, por si só, pode influenciar o design de produtos e os custos de conformidade de plataformas globais.

Guidances Staff · Updated June 17, 2026