OpenAI annonce le lancement d’un tout nouveau protocole de réseau pour superordinateur d’IA, MRC (Multipath Reliable Connection), et l’a déjà publié en open source via le Open Compute Project (OCP). Cette technologie a été développée conjointement par OpenAI et des acteurs comme AMD, Microsoft, NVIDIA, Intel, Broadcom, etc., avec pour objectif de résoudre le goulot d’étranglement des transmissions de données entre GPU dans les clusters d’entraînement d’IA à très grande échelle.
Le vrai goulot d’étranglement de l’entraînement IA : comment les GPU communiquent entre eux
OpenAI indique que, avec le nombre d’utilisateurs hebdomadaires de ChatGPT dépassant 900 millions, les systèmes d’IA deviennent progressivement un service de niveau infrastructure. Pour soutenir les besoins d’entraînement et d’inférence des modèles de prochaine génération, OpenAI estime qu’il ne suffit pas de faire évoluer uniquement les modèles : l’architecture réseau doit elle aussi être repensée.
Dans un article technique, OpenAI souligne qu’au cours de l’entraînement de grands modèles d’IA, une seule étape d’entraînement peut impliquer des échanges de données entre GPU à des millions de fois. Tant qu’une seule transmission présente une latence, tout l’entraînement peut se retrouver bloqué en synchronisation, entraînant un grand nombre de GPU inutilisés.
Et à mesure que l’échelle des superordinateurs d’IA s’accroît, des problèmes comme la congestion réseau, la panne des commutateurs, ou encore le jitter (variation de latence) se multiplient rapidement. OpenAI considère que c’est aussi l’un des défis techniques les plus centraux du projet de superordinateur Stargate.
Dans le passé, la majorité des architectures réseau des centres de données utilisaient une transmission à chemin unique (single-path). Mais la plus grande différence du MRC, c’est qu’il permet de répartir simultanément une même donnée sur plusieurs centaines de chemins de transmission.
Qu’est-ce que le MRC ? OpenAI : rendre le réseau d’IA capable d’éviter automatiquement les obstacles
D’après OpenAI et AMD, l’idée centrale du MRC est :
Diviser les données, puis les faire emprunter simultanément plusieurs chemins
Contourner automatiquement les pannes à l’échelle de la microseconde
Réduire la latence causée par la congestion réseau
Permettre aux GPU de rester synchronisés et de fonctionner en continu
AMD décrit que les réseaux d’IA traditionnels ressemblent à des autoroutes où l’on emprunte une seule voie à très grande vitesse : dès que les routes se chargent ou qu’il y a un accident, l’ensemble du calendrier est affecté. Le MRC, lui, ressemble à un système de transport intelligent doté d’une capacité de changement d’itinéraire en temps réel. AMD va même jusqu’à affirmer : « La vraie limite quand on met l’IA à l’échelle n’est plus le GPU et le CPU, mais le réseau. »
Pourquoi OpenAI a-t-il besoin de concevoir lui-même un protocole réseau ?
Le signal lancé par OpenAI est très clair : la compétition en IA ne concerne plus seulement les modèles, mais l’ensemble de la compétition autour des « infrastructures de superordinateur ». Dans son article, OpenAI mentionne qu’avant l’arrivée de Stargate, eux et leurs partenaires avaient ensemble assuré la maintenance de trois générations de superordinateurs d’IA. Ces expériences amènent OpenAI à conclure que pour exploiter efficacement la puissance de calcul à l’échelle de Stargate, l’ensemble de la pile technique doit réduire fortement sa complexité. Cela inclut aussi la couche réseau.
Autrement dit, dans la compétition des Frontier Models à venir, ce ne sera plus seulement une question de qui dispose du modèle le plus performant, mais de qui parvient à faire fonctionner de manière plus efficace des dizaines de milliers, voire des millions de GPU en synchronisation.
Derrière le MRC, il y a Stargate : le projet « manhattan » d’OpenAI
Le contexte du MRC est en fait celui de Stargate LLC. Stargate est un projet de grande infrastructure d’IA porté par OpenAI, SoftBank Group, Oracle Corporation et MGX. L’objectif initial était d’investir jusqu’à 500 milliards de dollars dans des infrastructures d’IA aux États-Unis. OpenAI indique qu’ils ont déjà dépassé l’objectif intermédiaire initial de 10GW, et qu’au cours des 90 derniers jours, plus de 3GW de capacité d’infrastructures d’IA ont été ajoutés.
Le superordinateur Stargate situé à Abilene, au Texas, fait justement partie des principaux sites de déploiement du MRC. OpenAI précise que le MRC a été intégré à la dernière interface réseau de 800Gb/s et qu’il est en fonctionnement dans des entraînements réels à grande échelle.
Cet article « OpenAI publie le protocole réseau pour superordinateur MRC ! En collaboration avec NVIDIA, AMD et Microsoft pour bâtir l’infrastructure Stargate » est apparu pour la première fois sur Chaîne News ABMedia.
Articles similaires
OpenAI révoque demain le certificat de signature macOS, le 8 mai, désactivant les applications obsolètes
Chrome supprime et réinstalle un modèle d’IA de 4 Go, selon un chercheur, à cause de la violation des lois européennes sur la confidentialité
Des documents judiciaires montrent qu’Altman a proposé d’acquérir Microsoft pour conserver son rôle de PDG en novembre 2023
Un grand CEX ajoute des échanges pré-IPO pour SpaceX, OpenAI et Anthropic
Cloudflare déclenche 1 milliard de réponses HTTP 402 par jour à Consensus 2026, et lance le cadre de confiance des agents avec Visa et Experian
Le Parlement singapourien s’engage à éviter une croissance sans emplois à l’ère de l’IA après un débat de 7 heures