OpenAI dévoile le protocole de réseau supercalculateur MRC ! En partenariat avec Nvidia, AMD et Microsoft pour créer l’infrastructure de Stargate

OpenAI annonce le lancement d’un tout nouveau protocole de réseau pour superordinateur d’IA, MRC (Multipath Reliable Connection), et l’a déjà publié en open source via le Open Compute Project (OCP). Cette technologie a été développée conjointement par OpenAI et des acteurs comme AMD, Microsoft, NVIDIA, Intel, Broadcom, etc., avec pour objectif de résoudre le goulot d’étranglement des transmissions de données entre GPU dans les clusters d’entraînement d’IA à très grande échelle.

Le vrai goulot d’étranglement de l’entraînement IA : comment les GPU communiquent entre eux

OpenAI indique que, avec le nombre d’utilisateurs hebdomadaires de ChatGPT dépassant 900 millions, les systèmes d’IA deviennent progressivement un service de niveau infrastructure. Pour soutenir les besoins d’entraînement et d’inférence des modèles de prochaine génération, OpenAI estime qu’il ne suffit pas de faire évoluer uniquement les modèles : l’architecture réseau doit elle aussi être repensée.

Dans un article technique, OpenAI souligne qu’au cours de l’entraînement de grands modèles d’IA, une seule étape d’entraînement peut impliquer des échanges de données entre GPU à des millions de fois. Tant qu’une seule transmission présente une latence, tout l’entraînement peut se retrouver bloqué en synchronisation, entraînant un grand nombre de GPU inutilisés.

Et à mesure que l’échelle des superordinateurs d’IA s’accroît, des problèmes comme la congestion réseau, la panne des commutateurs, ou encore le jitter (variation de latence) se multiplient rapidement. OpenAI considère que c’est aussi l’un des défis techniques les plus centraux du projet de superordinateur Stargate.

Dans le passé, la majorité des architectures réseau des centres de données utilisaient une transmission à chemin unique (single-path). Mais la plus grande différence du MRC, c’est qu’il permet de répartir simultanément une même donnée sur plusieurs centaines de chemins de transmission.

Qu’est-ce que le MRC ? OpenAI : rendre le réseau d’IA capable d’éviter automatiquement les obstacles

D’après OpenAI et AMD, l’idée centrale du MRC est :

Diviser les données, puis les faire emprunter simultanément plusieurs chemins

Contourner automatiquement les pannes à l’échelle de la microseconde

Réduire la latence causée par la congestion réseau

Permettre aux GPU de rester synchronisés et de fonctionner en continu

AMD décrit que les réseaux d’IA traditionnels ressemblent à des autoroutes où l’on emprunte une seule voie à très grande vitesse : dès que les routes se chargent ou qu’il y a un accident, l’ensemble du calendrier est affecté. Le MRC, lui, ressemble à un système de transport intelligent doté d’une capacité de changement d’itinéraire en temps réel. AMD va même jusqu’à affirmer : « La vraie limite quand on met l’IA à l’échelle n’est plus le GPU et le CPU, mais le réseau. »

Pourquoi OpenAI a-t-il besoin de concevoir lui-même un protocole réseau ?

Le signal lancé par OpenAI est très clair : la compétition en IA ne concerne plus seulement les modèles, mais l’ensemble de la compétition autour des « infrastructures de superordinateur ». Dans son article, OpenAI mentionne qu’avant l’arrivée de Stargate, eux et leurs partenaires avaient ensemble assuré la maintenance de trois générations de superordinateurs d’IA. Ces expériences amènent OpenAI à conclure que pour exploiter efficacement la puissance de calcul à l’échelle de Stargate, l’ensemble de la pile technique doit réduire fortement sa complexité. Cela inclut aussi la couche réseau.

Autrement dit, dans la compétition des Frontier Models à venir, ce ne sera plus seulement une question de qui dispose du modèle le plus performant, mais de qui parvient à faire fonctionner de manière plus efficace des dizaines de milliers, voire des millions de GPU en synchronisation.

Derrière le MRC, il y a Stargate : le projet « manhattan » d’OpenAI

Le contexte du MRC est en fait celui de Stargate LLC. Stargate est un projet de grande infrastructure d’IA porté par OpenAI, SoftBank Group, Oracle Corporation et MGX. L’objectif initial était d’investir jusqu’à 500 milliards de dollars dans des infrastructures d’IA aux États-Unis. OpenAI indique qu’ils ont déjà dépassé l’objectif intermédiaire initial de 10GW, et qu’au cours des 90 derniers jours, plus de 3GW de capacité d’infrastructures d’IA ont été ajoutés.

Le superordinateur Stargate situé à Abilene, au Texas, fait justement partie des principaux sites de déploiement du MRC. OpenAI précise que le MRC a été intégré à la dernière interface réseau de 800Gb/s et qu’il est en fonctionnement dans des entraînements réels à grande échelle.

Cet article « OpenAI publie le protocole réseau pour superordinateur MRC ! En collaboration avec NVIDIA, AMD et Microsoft pour bâtir l’infrastructure Stargate » est apparu pour la première fois sur Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

OpenAI révoque demain le certificat de signature macOS, le 8 mai, désactivant les applications obsolètes

Selon Beating, le certificat de signature macOS d’OpenAI sera révoqué le 8 mai, rendant les versions obsolètes de ChatGPT Desktop, Codex, Codex CLI et Atlas inutilisables et incapables de recevoir des mises à jour. Les utilisateurs disposant de versions macOS doivent mettre à jour immédiatement via les mises à jour intégrées à l’application ou en téléchargeant depuis Ope

GateNewsIl y a 7m

Chrome supprime et réinstalle un modèle d’IA de 4 Go, selon un chercheur, à cause de la violation des lois européennes sur la confidentialité

Selon Decrypt, le 7 mai, Google Chrome télécharge en silence, sans obtenir le consentement de l’utilisateur, environ 4 Go du modèle d’IA Gemini Nano sur les appareils éligibles. Le chercheur en matière de confidentialité Alexander Hanff a découvert cette pratique en effectuant un audit automatisé de profils de nouveaux utilisateurs, affirmant que cela pourrait enfreindre la directive européenne « ePrivacy ».

MarketWhisperIl y a 18m

Des documents judiciaires montrent qu’Altman a proposé d’acquérir Microsoft pour conserver son rôle de PDG en novembre 2023

D’après des documents judiciaires publiés le 7 mai, des éléments de l’affaire Musk contre Altman ont révélé des messages entre Sam Altman et l’ancienne directrice technique Mira Murati datant du 19 novembre 2023, lorsque le conseil d’administration d’OpenAI a soudainement révoqué Altman de son poste de PDG. Pendant la crise, Altman a proposé que Microsoft acquière OpenAI pour

GateNewsIl y a 23m

Un grand CEX ajoute des échanges pré-IPO pour SpaceX, OpenAI et Anthropic

D'après des informations, une bourse centralisée de premier plan a lancé aujourd'hui (7 mai) les paires de négociation SPACEX/USDT, OPENAI/USDT et ANTHROPIC/USDT pour une entrée en bourse avant l'introduction en bourse (Pre-IPO). La plateforme prend en charge le trading avec effet de levier sur ces instruments.

GateNewsIl y a 30m

Cloudflare déclenche 1 milliard de réponses HTTP 402 par jour à Consensus 2026, et lance le cadre de confiance des agents avec Visa et Experian

Selon Foresight News, la directrice de la technologie chez Cloudflare, Stephanie Cohen, a annoncé lors de Consensus 2026 que la plateforme déclenche environ 1 milliard de réponses HTTP 402 par jour, reflétant la demande des agents IA pour un accès payant au contenu web. La société, aux côtés de Visa et d’Experian, a dévoilé la technologie Agent Trust

GateNewsIl y a 46m

Le Parlement singapourien s’engage à éviter une croissance sans emplois à l’ère de l’IA après un débat de 7 heures

Selon CNA, le Parlement singapourien a adopté à l’unanimité, le 6 mai, une motion appelant à une croissance inclusive pendant la transition liée à l’IA, après plus de sept heures de débats impliquant 24 députés, dont sept issus du Parti des travailleurs. La motion, présentée par le responsable du travail Ng Chee Meng et trois autres

GateNewsIl y a 1h
Commentaire
0/400
Aucun commentaire