De acuerdo con el anuncio del 28 de abril del blog oficial de NVIDIA (autor: Kari Briski), NVIDIA presentó Nemotron 3 Nano Omni, un modelo multimodal de código abierto que integra capacidades de visión, voz y lenguaje en un único modelo, con el objetivo de proporcionar a los sistemas de agentes de IA una capa de “percepción” con menor latencia y menor costo.
Especificaciones clave: 30B-A3B MoE, contexto de 256K, 9 veces de rendimiento, y liderar 6 rankings
Arquitectura clave:
30B-A3B hybrid mixture-of-experts (parámetros totales 30B, activados 3B)
Integración de codificación Conv3D y EVS
Longitud de contexto 256K
Entrada: texto, imágenes, audio, videos, documentos, tablas, pantallas GUI
Salida: texto
Señales de desempeño: 9 veces de rendimiento en interactividad equivalente frente a otros modelos omni de código abierto; ocupó el primer lugar en 6 rankings de referencia en tres grandes categorías: inteligencia de documentos, comprensión de video y comprensión de audio (en el anuncio de NVIDIA no se listan puntuaciones específicas, y se guía a los lectores a ir al blog de desarrolladores para ver los detalles).
NVIDIA posiciona Nemotron 3 Nano Omni como “los ojos y los oídos” dentro de los sistemas de agentes, y puede trabajar en conjunto con otros modelos de la misma familia como Nemotron 3 Super (ejecución de alta frecuencia) y Nemotron 3 Ultra (planificación compleja). También puede interoperar con modelos en la nube de terceros. Tres escenarios típicos de aplicación de agentes:
Agente de uso de computadora (Computer Use Agent): razonamiento visual nativo con resolución 1920×1080
Inteligencia de documentos: inferencia con entradas multimodales que combinan gráficos, tablas, capturas y medios mixtos
Comprensión de audio/video: integrar voz, imágenes y registros en una única cadena de inferencia
Repertorio de adopción: entra Hon Hai, Palantir, y el CEO de H Company hace una declaración con nombre propio
En el anuncio, NVIDIA distingue explícitamente entre “adopción para producción” y “en evaluación”:
Adopción para producción: Aible, Applied Scientific Intelligence (ASI), Eka Care, Hon Hai (Foxconn), H Company, Palantir, Pyler
En evaluación: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, entre otros
El CEO de H Company, Gautier Cloix, hace una declaración con nombre propio en el anuncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Traducción: “Para construir agentes útiles, no puedes esperar segundos para que un modelo interprete una pantalla. Al basarnos en Nemotron 3 Nano Omni, nuestros agentes pueden interpretar rápidamente grabaciones de pantalla completas en HD, algo que antes no era práctico.”
Estrategia de código abierto y despliegue: pesos / conjuntos de datos / métodos de entrenamiento, todo publicado
Al momento de su lanzamiento, NVIDIA publica también:
Pesos del modelo
Conjuntos de datos de entrenamiento
Técnicas/métodos de entrenamiento
El despliegue abarca tres capas:
Estaciones de trabajo locales: NVIDIA DGX Spark, DGX Station
Microservicios NIM: build.nvidia.com
Plataformas de terceros: Hugging Face, OpenRouter, y mediante más de 25 NVIDIA Cloud Partners, proveedores de plataformas de inferencia y servicios en la nube
Las herramientas personalizadas se utilizan con NVIDIA NeMo. La familia Nemotron 3 (Nano/Super/Ultra) en el último año acumuló más de 50.000.000 de descargas en Hugging Face, y esta Omni extiende las capacidades de esa familia a los ámbitos multimodales y agentic.
Este artículo sobre que NVIDIA publica Nemotron 3 Nano Omni de código abierto y multimodal aparece por primera vez en 鏈新聞 ABMedia.
Artículos relacionados
Socios de AWS: Coinbase, Stripe para pagos con USDC de agentes de IA
CZ dice que YZi Labs asigna el 70% a blockchain y el 20% a IA en Consensus Miami 2026
Zypher Network integra AIDEN para mejorar la accesibilidad del conocimiento sobre blockchain
Virtuals Protocol lanza el airdrop OpenGradient Titan, distribuye 500K OPG hoy
NeoSoul y AllScale anuncian una asociación estratégica sobre créditos para agentes y liquidación de stablecoin hoy
FIS y Anthropic desarrollan agentes de IA para combatir el blanqueo de capitales, con despliegue en BMO y Amalgamated Bank durante el segundo semestre de 2026