OpenAI annonce le lancement d’un tout nouveau protocole de réseau pour superordinateur d’IA, MRC (Multipath Reliable Connection), et l’a déjà publié en open source via le Open Compute Project (OCP). Cette technologie a été développée conjointement par OpenAI et des acteurs comme AMD, Microsoft, NVIDIA, Intel, Broadcom, etc., avec pour objectif de résoudre le goulot d’étranglement des transmissions de données entre GPU dans les clusters d’entraînement d’IA à très grande échelle.

Le vrai goulot d’étranglement de l’entraînement IA : comment les GPU communiquent entre eux

OpenAI indique que, avec le nombre d’utilisateurs hebdomadaires de ChatGPT dépassant 900 millions, les systèmes d’IA deviennent progressivement un service de niveau infrastructure. Pour soutenir les besoins d’entraînement et d’inférence des modèles de prochaine génération, OpenAI estime qu’il ne suffit pas de faire évoluer uniquement les modèles : l’architecture réseau doit elle aussi être repensée.

Dans un article technique, OpenAI souligne qu’au cours de l’entraînement de grands modèles d’IA, une seule étape d’entraînement peut impliquer des échanges de données entre GPU à des millions de fois. Tant qu’une seule transmission présente une latence, tout l’entraînement peut se retrouver bloqué en synchronisation, entraînant un grand nombre de GPU inutilisés.

Et à mesure que l’échelle des superordinateurs d’IA s’accroît, des problèmes comme la congestion réseau, la panne des commutateurs, ou encore le jitter (variation de latence) se multiplient rapidement. OpenAI considère que c’est aussi l’un des défis techniques les plus centraux du projet de superordinateur Stargate.

Dans le passé, la majorité des architectures réseau des centres de données utilisaient une transmission à chemin unique (single-path). Mais la plus grande différence du MRC, c’est qu’il permet de répartir simultanément une même donnée sur plusieurs centaines de chemins de transmission.

Qu’est-ce que le MRC ? OpenAI : rendre le réseau d’IA capable d’éviter automatiquement les obstacles

D’après OpenAI et AMD, l’idée centrale du MRC est :

Diviser les données, puis les faire emprunter simultanément plusieurs chemins

Contourner automatiquement les pannes à l’échelle de la microseconde

Réduire la latence causée par la congestion réseau

Permettre aux GPU de rester synchronisés et de fonctionner en continu

AMD décrit que les réseaux d’IA traditionnels ressemblent à des autoroutes où l’on emprunte une seule voie à très grande vitesse : dès que les routes se chargent ou qu’il y a un accident, l’ensemble du calendrier est affecté. Le MRC, lui, ressemble à un système de transport intelligent doté d’une capacité de changement d’itinéraire en temps réel. AMD va même jusqu’à affirmer : « La vraie limite quand on met l’IA à l’échelle n’est plus le GPU et le CPU, mais le réseau. »

Pourquoi OpenAI a-t-il besoin de concevoir lui-même un protocole réseau ?

Le signal lancé par OpenAI est très clair : la compétition en IA ne concerne plus seulement les modèles, mais l’ensemble de la compétition autour des « infrastructures de superordinateur ». Dans son article, OpenAI mentionne qu’avant l’arrivée de Stargate, eux et leurs partenaires avaient ensemble assuré la maintenance de trois générations de superordinateurs d’IA. Ces expériences amènent OpenAI à conclure que pour exploiter efficacement la puissance de calcul à l’échelle de Stargate, l’ensemble de la pile technique doit réduire fortement sa complexité. Cela inclut aussi la couche réseau.

Autrement dit, dans la compétition des Frontier Models à venir, ce ne sera plus seulement une question de qui dispose du modèle le plus performant, mais de qui parvient à faire fonctionner de manière plus efficace des dizaines de milliers, voire des millions de GPU en synchronisation.

Derrière le MRC, il y a Stargate : le projet « manhattan » d’OpenAI

Le contexte du MRC est en fait celui de Stargate LLC. Stargate est un projet de grande infrastructure d’IA porté par OpenAI, SoftBank Group, Oracle Corporation et MGX. L’objectif initial était d’investir jusqu’à 500 milliards de dollars dans des infrastructures d’IA aux États-Unis. OpenAI indique qu’ils ont déjà dépassé l’objectif intermédiaire initial de 10GW, et qu’au cours des 90 derniers jours, plus de 3GW de capacité d’infrastructures d’IA ont été ajoutés.

Le superordinateur Stargate situé à Abilene, au Texas, fait justement partie des principaux sites de déploiement du MRC. OpenAI précise que le MRC a été intégré à la dernière interface réseau de 800Gb/s et qu’il est en fonctionnement dans des entraînements réels à grande échelle.

Cet article « OpenAI publie le protocole réseau pour superordinateur MRC ! En collaboration avec NVIDIA, AMD et Microsoft pour bâtir l’infrastructure Stargate » est apparu pour la première fois sur Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.