Selon l’annonce du blog officiel de NVIDIA du 28 avril (auteur Kari Briski), NVIDIA a dévoilé Nemotron 3 Nano Omni — un modèle multimodal open source qui intègre des capacités de vision, de voix et de langage dans un seul modèle, avec pour objectif de fournir aux systèmes d’AI agent une « couche de perception » à plus faible latence et moins coûteuse.
Spécifications clés : 30B-A3B MoE, contexte 256K, débit 9 fois plus élevé, tête de 6 classements
Architecture clé :
30B-A3B hybrid mixture-of-experts (30B de paramètres au total, 3B activés)
Intègre le codage Conv3D et EVS
Longueur de contexte 256K
Entrées : texte, images, audio, vidéos, documents, tableaux, captures d’écran GUI
Sorties : texte
Signaux de performance : 9 fois plus de débit que les autres modèles open source omni à interaction équivalente ; en tête des 6 classements de référence dans trois catégories : intelligence documentaire, compréhension vidéo, compréhension audio (l’annonce NVIDIA ne donne pas les scores précis, invitant les lecteurs à se rendre sur le blog développeur pour les détails).
NVIDIA positionne Nemotron 3 Nano Omni comme « les yeux et les oreilles » au sein des systèmes d’agent, avec une répartition du travail possible au sein de la même famille de modèles : Nemotron 3 Super (exécution à haute fréquence), Nemotron 3 Ultra (planification complexe), etc., et une interopérabilité aussi avec des modèles cloud de tiers. Trois scénarios d’usage typiques d’agent :
Agent d’utilisation informatique (Computer Use Agent) : raisonnement visuel en résolution native 1920×1080
Intelligence documentaire : inférence via des entrées multimédias mixtes, à travers figures, tableaux et captures
Compréhension audio/vidéo : fusion de la parole, des images et des enregistrements en une seule chaîne d’inférence
Adoption : Foxconn, Palantir rejoint, et prise de position nominative du PDG de H Company
Dans l’annonce, NVIDIA distingue clairement « adoption en production » et « évaluation en cours » :
Déjà en production : Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鸿海), H Company, Palantir, Pyler
En cours d’évaluation : Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.
Le PDG de H Company, Gautier Cloix, a pris position nominativement dans l’annonce : « To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before. » Traduction : « Pour construire des agents utiles, vous ne pouvez pas attendre des secondes pour que le modèle interprète un écran. En nous appuyant sur Nemotron 3 Nano Omni, nos agents peuvent interpréter rapidement des enregistrements d’écran en Full HD — une chose qui n’était pas praticable auparavant. »
Stratégie open source et déploiement : weights / datasets / méthodes d’entraînement entièrement publiés
Au moment du lancement, NVIDIA publie simultanément :
Les poids du modèle
Les ensembles de données d’entraînement
Les techniques/méthodologies d’entraînement
Le pipeline de déploiement couvre trois niveaux :
Poste de travail local : NVIDIA DGX Spark, DGX Station
Microservices NIM : build.nvidia.com
Plateformes tierces : Hugging Face, OpenRouter, et fourniture via plus de 25 partenaires cloud NVIDIA, des plateformes d’inférence et des fournisseurs de services cloud
Les outils sur mesure utilisent NVIDIA NeMo. La famille Nemotron 3 (Nano/Super/Ultra) a accumulé, au cours de la dernière année, plus de 50 000 000 de téléchargements sur Hugging Face ; cette fois, Omni étend les capacités de cette famille aux domaines multimodaux et agentic.
Cet article annonçant l’ouverture du code de Nemotron 3 Nano Omni de NVIDIA : « open source multimodal » apparaît pour la première fois sur 鏈新聞 ABMedia.
Articles similaires
Les partenaires AWS Coinbase et Stripe pour les paiements en USDC par agent d’IA
CZ déclare que YZi Labs alloue 70 % à la blockchain et 20 % à l’IA lors de Consensus Miami 2026
Zypher Network intègre AIDEN pour améliorer l’accessibilité des connaissances en matière de blockchain
Virtuals Protocol lance l’airdrop OpenGradient Titan, distribue 500 000 OPG aujourd’hui
NeoSoul et AllScale annoncent un partenariat stratégique sur le crédit d’agents et le règlement en stablecoins aujourd’hui
FIS et Anthropic développent des agents d’IA pour lutter contre le blanchiment d’argent, avec un déploiement prévu pour BMO et Amalgamated Bank au second semestre 2026