OpenAI публікує протокол MRC для суперкомп’ютерної мережі! Разом із Nvidia, AMD та Microsoft створюють базову інфраструктуру Stargate

OpenAI оголосила про запуск нового протоколу AI «суперкомп’ютерної» мережі MRC (Multipath Reliable Connection) і вже відкрила його через Open Compute Project (OCP). Цю технологію спільно розробляють OpenAI та такі компанії, як AMD, Microsoft, NVIDIA, Intel, Broadcom тощо; мета — усунути вузьке місце з передаванням даних між GPU у надвеликих AI-тренувальних кластерах.

AI-тренування — справжня проблема не в GPU, а в тому, як вони спілкуються між собою

OpenAI зазначає, що, оскільки щотижневе використання ChatGPT уже перевищило 900 млн користувачів, AI-системи поступово перетворюються на сервіс рівня базової інфраструктури. Щоб підтримати потреби в тренуванні та виведенні наступних моделей, OpenAI вважає, що має еволюціонувати не лише сама модель — мережеву архітектуру також потрібно перерозробити.

У технічній статті OpenAI підкреслює: під час тренування великих AI-моделей один крок тренування може включати мільйони обмінів даними між GPU. Якщо затримка з’являється в одному з передавань, це може спричинити повну зупинку синхронізації всього тренування, через що значна кількість GPU простоюватиме.

А коли масштаби AI-суперкомп’ютера стають більшими, проблеми на кшталт мережевої перевантаженості, відмов комутаторів і «jitter» (дрижання затримки) стрімко посилюються. OpenAI вважає, що це — один із ключових технічних викликів у межах проєкту Stargate.

Раніше мережева архітектура дата-центрів здебільшого використовувала одношляхове передавання (single-path). Але головна зміна MRC полягає в тому, що один і той самий потік даних може одночасно розподілятися на сотні шляхів передавання.

Що таке MRC? OpenAI: зробити AI-мережі здатними автоматично «обходити перешкоди»

За даними OpenAI та AMD, ключові принципи MRC такі:

ділити дані на частини та одночасно прокладати їх кількома шляхами на автоматі обходити відмови на рівні мікросекунд зменшувати затримки, спричинені мережевою перевантаженістю підтримувати синхронну роботу GPU

AMD описує, що традиційна AI-мережа схожа на автостраду, яка рухається лише одним маршрутом: якщо виникає затор або аварія, це впливає на весь прогрес; натомість MRC — це інтелектуальна транспортна система з можливістю миттєвого перерозподілу маршрутів. AMD навіть заявляє: «Справжнім вузьким місцем під час масштабування AI є не GPU та CPU, а мережа».

Чому OpenAI вирішила самостійно проєктувати мережевий протокол

Сигнал цього разу від OpenAI дуже чіткий: AI-конкуренція — це вже не лише конкуренція моделей, а конкуренція цілого комплексу «інфраструктури суперкомп’ютера». У статті OpenAI згадується, що до появи Stargate вони разом із партнерами вже спільно підтримували три покоління AI-суперкомп’ютерів. Ці практичні напрацювання привели OpenAI до висновку: щоб ефективно використовувати обчислювальну потужність у масштабі Stargate, весь stack потрібно суттєво спрощувати — і це також стосується мережевого рівня.

Інакше кажучи, майбутня конкуренція Frontier Model — це вже не лише хто створить сильнішу модель, а хто зможе ефективніше синхронізувати роботу десятків і навіть сотень тисяч GPU.

За MRC стоїть Stargate: «мангеттенський проєкт» OpenAI

Передумовою MRC є Stargate LLC. Stargate — це ініціатива з розвитку великої AI-інфраструктури за участі OpenAI, SoftBank Group, Oracle Corporation та MGX; спочатку її метою було інвестувати в США до 500 млрд доларів в AI-інфраструктуру. OpenAI зазначає, що наразі вони вже перевищили проміжну ціль у 10GW, а протягом останніх 90 днів додали понад 3GW потужності AI-інфраструктури.

Суперкомп’ютер Stargate у місті Абілен, штат Техас, є одним із ключових майданчиків для розгортання MRC. OpenAI вказує, що MRC інтегровано в найновіший мережевий інтерфейс на 800Gb/s, і що його вже тестують у реальних великих тренувальних кластерах.

Ця стаття «OpenAI оприлюднила MRC — суперкомп’ютерний мережевий протокол!» уперше з’явилася на сайті Ланцюжок новин ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Публічна компанія придбала AI-інвестиційну платформу Treasury App, щоб розширити криптовалютну торгівлю

Згідно з ChainCatcher, Public оголосила про придбання платформи AI-інвестиційних сервісів Treasury App, щоб посилити свій брокерський бізнес, керований ШІ. Суму угоди не розкрили. Наразі Public підтримує торгівлю акціями, облігаціями та криптовалютами, зокрема Bitcoin, Ethereum, a

GateNews1год тому

Blitzy завершила раунд фінансування $200M під керівництвом Northzone

За даними ChainCatcher, Blitzy — компанія з розробки коду за допомогою ШІ, співзасновником якої є колишній архітектор Nvidia Сід Пардеші, — завершила раунд фінансування на $200 мільйонів, який очолила Northzone. Battery Ventures, Jump Capital і Morgan Creek Digital також взяли участь у раунді. Платформа може аналізувати складні системи з

GateNews1год тому

ЄС забороняє порнографію з дипфейками, створеними за допомогою ШІ, 7 травня

За повідомленням агентства Xinhua News Agency, 7 травня члени Європейського парламенту та держави-члени досягли консенсусу щодо заборони системам штучного інтелекту створювати порно-контент із використанням deepfake. Заборону буде включено до поправок до Закону ЄС про штучний інтелект 2024 року. Європейський парламент

GateNews2год тому

Tether випускає медичну AI-модель QVAC MedPsy та досягає оцінки 62,62 на версії з 17 млрд параметрів

За даними Odaily, Tether AI Research Group випустила QVAC MedPsy — медичну AI-модель, призначену для локального запуску на смартфонах і носимих пристроях без залежності від хмари. Версія на 1,7 мільярда параметрів набрала 62,62 на семи медичних бенчмарках, випередивши MedGemma-1.5-4B від Google на 11,42 poi

GateNews2год тому

B.AI запускає чотири нові моделі, зокрема GPT-5.5 Instant, протягом 48 годин після релізу OpenAI

B.AI API запустив чотири нові моделі: GPT-5.5 Instant, DeepSeek-v3.2, MiniMax-M2.7 і GLM-5.1. GPT-5.5 Instant завершив базову адаптацію та інтеграцію інтерфейсу протягом 48 годин після релізу OpenAI, забезпечивши доступ без затримок до

GateNews2год тому

Модель медичної AI від Tether на 1,7 млрд перевершила сьогодні конкурента у 16 разів більшого розміру

За даними AI-дослідницької команди Tether, сьогодні компанія запустила медичні мовні моделі серії QVAC MedPsy, створені для локального розгортання на смартфонах і носимих пристроях без залежності від хмари. Версія з 1,7 млрд параметрів набрала 62,62 на семи медичних бенчмарках, перевершивши Google MedGemma-4B

GateNews2год тому
Прокоментувати
0/400
Немає коментарів