De acordo com o anúncio no blogue oficial da NVIDIA de 28 de abril (autor Kari Briski), a NVIDIA apresentou o Nemotron 3 Nano Omni — um modelo multimodal open source que integra capacidades de visão, voz e linguagem num único modelo, com o objetivo de fornecer aos sistemas de AI agents uma camada de perceção com menor latência e custos mais baixos.
Especificações principais: 30B-A3B MoE, contexto 256K, 9 vezes mais throughput, 1.º lugar em 6 rankings
Arquitetura-chave:
30B-A3B hybrid mixture-of-experts (parâmetros totais 30B, ativados 3B)
Integração de Conv3D e EVS encoding
Comprimento de contexto 256K
Entrada: texto, imagens, áudio, vídeo, ficheiros, diagramas, ecrãs GUI
Saída: texto
Sinais de desempenho: 9 vezes mais throughput em interações equivalentes do que outros modelos open source omni; e 1.º lugar em 6 rankings de três categorias principais — inteligência de documentos, compreensão de vídeo e compreensão de áudio (o anúncio da NVIDIA não indica pontuações específicas, orientando os leitores para o blogue de developers para ver os detalhes).
A NVIDIA posiciona o Nemotron 3 Nano Omni como “olhos e ouvidos” em sistemas de agent, podendo dividir funções com outros modelos da mesma família, como o Nemotron 3 Super (execução de alta frequência) e o Nemotron 3 Ultra (planeamento complexo), além de poder interoperar com modelos em nuvem de terceiros. Três cenários típicos de aplicação de agent:
Agente de utilização do computador (Computer Use Agent): raciocínio visual nativo com resolução 1920×1080
Inteligência de documentos: inferência a partir de entradas multimodais, incluindo mapas, tabelas, screenshots e media mistos
Compreensão de áudio/vídeo: integrar fala, imagens e gravações num único encadeamento de inferência
Conjunto de entidades adotantes: entra a Foxconn; Palantir também entra; o CEO da H Company faz uma declaração nominal
No anúncio da NVIDIA, é feita uma distinção clara entre “adoção em produção” e “em avaliação”:
Adoção em produção: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler
Em avaliação: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, entre outras
O CEO da H Company, Gautier Cloix, faz uma declaração nominal no anúncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Tradução: “Para criar agents úteis, não pode esperar segundos para que o modelo interprete um ecrã. Ao construir em cima do Nemotron 3 Nano Omni, os nossos agents conseguem interpretar rapidamente gravações de ecrã em Full HD — algo que antes não era praticável.”
Estratégia open source e deployment: pesos / datasets / métodos de treino totalmente divulgados
No lançamento, a NVIDIA publica simultaneamente:
Pesos do modelo
Conjuntos de dados de treino
Técnicas/métodos de treino
O pipeline de deployment abrange três camadas:
Workstations locais: NVIDIA DGX Spark, DGX Station
NIM micro-serviços: build.nvidia.com
Plataformas de terceiros: Hugging Face, OpenRouter, e através de mais de 25 NVIDIA Cloud Partners, incluindo plataformas de inferência e fornecedores de serviços em nuvem
As ferramentas de customização utilizam a NVIDIA NeMo. A família Nemotron 3 (Nano/Super/Ultra) acumulou mais de 50 milhões de downloads no Hugging Face ao longo do último ano; desta vez, o Omni estende as capacidades dessa família para os domínios multimodal e agentic.
Este artigo da NVIDIA sobre o open source do Nemotron 3 Nano Omni apareceu pela primeira vez em 鏈新聞 ABMedia.
Related Articles
Parceiros da AWS: Coinbase, Stripe para pagamentos em USDC por agentes de IA
CZ diz que a YZi Labs aloca 70% para a blockchain e 20% para a IA no Consensus Miami 2026
A Zypher Network integra a AIDEN para melhorar a acessibilidade do conhecimento sobre blockchain
O Virtuals Protocol lança o OpenGradient Titan Airdrop, distribuindo 500 mil OPG hoje
A NeoSoul e a AllScale Anunciam uma Parceria Estratégica em Crédito de Agentes e Liquidação de Stablecoins Hoje
A FIS e a Anthropic desenvolvem agentes de IA para combater a lavagem de dinheiro, com implementação no BMO e no Amalgamated Bank no 2.º semestre de 2026