NVIDIA lance Nemotron 3 Nano Omni open source, un modèle multimodal

Selon l’annonce du blog officiel de NVIDIA du 28 avril (auteur Kari Briski), NVIDIA a dévoilé Nemotron 3 Nano Omni — un modèle multimodal open source qui intègre des capacités de vision, de voix et de langage dans un seul modèle, avec pour objectif de fournir aux systèmes d’AI agent une « couche de perception » à plus faible latence et moins coûteuse.

Spécifications clés : 30B-A3B MoE, contexte 256K, débit 9 fois plus élevé, tête de 6 classements

Architecture clé :

30B-A3B hybrid mixture-of-experts (30B de paramètres au total, 3B activés)

Intègre le codage Conv3D et EVS

Longueur de contexte 256K

Entrées : texte, images, audio, vidéos, documents, tableaux, captures d’écran GUI

Sorties : texte

Signaux de performance : 9 fois plus de débit que les autres modèles open source omni à interaction équivalente ; en tête des 6 classements de référence dans trois catégories : intelligence documentaire, compréhension vidéo, compréhension audio (l’annonce NVIDIA ne donne pas les scores précis, invitant les lecteurs à se rendre sur le blog développeur pour les détails).

NVIDIA positionne Nemotron 3 Nano Omni comme « les yeux et les oreilles » au sein des systèmes d’agent, avec une répartition du travail possible au sein de la même famille de modèles : Nemotron 3 Super (exécution à haute fréquence), Nemotron 3 Ultra (planification complexe), etc., et une interopérabilité aussi avec des modèles cloud de tiers. Trois scénarios d’usage typiques d’agent :

Agent d’utilisation informatique (Computer Use Agent) : raisonnement visuel en résolution native 1920×1080

Intelligence documentaire : inférence via des entrées multimédias mixtes, à travers figures, tableaux et captures

Compréhension audio/vidéo : fusion de la parole, des images et des enregistrements en une seule chaîne d’inférence

Adoption : Foxconn, Palantir rejoint, et prise de position nominative du PDG de H Company

Dans l’annonce, NVIDIA distingue clairement « adoption en production » et « évaluation en cours » :

Déjà en production : Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鸿海), H Company, Palantir, Pyler

En cours d’évaluation : Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.

Le PDG de H Company, Gautier Cloix, a pris position nominativement dans l’annonce : « To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before. » Traduction : « Pour construire des agents utiles, vous ne pouvez pas attendre des secondes pour que le modèle interprète un écran. En nous appuyant sur Nemotron 3 Nano Omni, nos agents peuvent interpréter rapidement des enregistrements d’écran en Full HD — une chose qui n’était pas praticable auparavant. »

Stratégie open source et déploiement : weights / datasets / méthodes d’entraînement entièrement publiés

Au moment du lancement, NVIDIA publie simultanément :

Les poids du modèle

Les ensembles de données d’entraînement

Les techniques/méthodologies d’entraînement

Le pipeline de déploiement couvre trois niveaux :

Poste de travail local : NVIDIA DGX Spark, DGX Station

Microservices NIM : build.nvidia.com

Plateformes tierces : Hugging Face, OpenRouter, et fourniture via plus de 25 partenaires cloud NVIDIA, des plateformes d’inférence et des fournisseurs de services cloud

Les outils sur mesure utilisent NVIDIA NeMo. La famille Nemotron 3 (Nano/Super/Ultra) a accumulé, au cours de la dernière année, plus de 50 000 000 de téléchargements sur Hugging Face ; cette fois, Omni étend les capacités de cette famille aux domaines multimodaux et agentic.

Cet article annonçant l’ouverture du code de Nemotron 3 Nano Omni de NVIDIA : « open source multimodal » apparaît pour la première fois sur 鏈新聞 ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Les partenaires AWS Coinbase et Stripe pour les paiements en USDC par agent d’IA

Amazon Web Services a annoncé jeudi un partenariat avec Coinbase et Stripe afin de permettre à des agents d’intelligence artificielle d’exécuter des transactions en utilisant des stablecoins, marquant une intégration significative de l’infrastructure de paiements basée sur la blockchain par un grand fournisseur de cloud. AWS a dévoilé « Amazon Bedrock Ag

CryptoFrontierIl y a 7h

CZ déclare que YZi Labs alloue 70 % à la blockchain et 20 % à l’IA lors de Consensus Miami 2026

D’après ChainCatcher, lors de Consensus Miami 2026, Zhao Changpeng (CZ) a déclaré que YZi Labs alloue 70 % de ses financements à la blockchain, 20 % à l’IA et 10 % à la biotechnologie. CZ a ajouté que BNB devrait être positionné comme une monnaie native pour les agents IA, et que toutes les blockchains doivent être « prêtes pour l’IA » afin de soutenir

GateNewsIl y a 9h

Zypher Network intègre AIDEN pour améliorer l’accessibilité des connaissances en matière de blockchain

D’après l’annonce officielle d’IQ AI du 6 mai, Zypher Network a intégré AIDEN, un agent d’intelligence artificielle développé par IQ AI, afin d’améliorer l’accessibilité aux connaissances blockchain et de renforcer l’auditabilité au sein d’écosystèmes propulsés par l’IA. La collaboration introduit une page wiki dédiée

GateNewsIl y a 9h

Virtuals Protocol lance l’airdrop OpenGradient Titan, distribue 500 000 OPG aujourd’hui

D’après l’annonce officielle de Virtuals Protocol, l’airdrop OpenGradient Titan Launch est désormais en ligne depuis le 7 mai. Les utilisateurs éligibles peuvent réclamer des jetons OPG directement depuis leurs comptes Virtuals. Au total, 500 000 jetons OPG sont distribués aujourd’hui pour récompenser les contributeurs à Virtuals

GateNewsIl y a 13h

NeoSoul et AllScale annoncent un partenariat stratégique sur le crédit d’agents et le règlement en stablecoins aujourd’hui

D'après ChainCatcher, le projet NeoSoul de l’AI Agent Economy a annoncé aujourd’hui (7 mai) un partenariat stratégique avec AllScale afin d’explorer la formation de crédit et les mécanismes de règlement en stablecoins pour la collaboration autonome entre agents. Le partenariat portera sur l’automatisation des flux de paiement entre les agents—tel

GateNewsIl y a 14h

FIS et Anthropic développent des agents d’IA pour lutter contre le blanchiment d’argent, avec un déploiement prévu pour BMO et Amalgamated Bank au second semestre 2026

FIS et Anthropic développent des agents d’IA conçus pour automatiser les enquêtes sur la criminalité financière, en commençant par les opérations de lutte contre le blanchiment d’argent. L’agent d’IA pour les crimes financiers extraira des données des systèmes bancaires, évaluera les transactions par rapport à des typologies connues et aidera les enquêteurs à examiner al

GateNewsIl y a 15h
Commentaire
0/400
Aucun commentaire