У гонці штучного інтелекту з трильйонними параметрами на перший план виходить обчислювальна потужність GPU, але менш помітний компонент поступово стає стратегічною висотою галузі — пам’ять з високою пропускною здатністю (HBM). Якщо GPU можна порівняти з двигуном, оснащеним тисячами циліндрів, то HBM — це система подачі пального, яка забезпечує безперервний потік даних. Яким би потужним не був двигун, він працюватиме лише на холостих обертах, якщо система подачі пального не здатна підтримувати необхідний рівень.
Галузевий консенсус змінюється: вузьким місцем для обчислювальної потужності штучного інтелекту вже перестають бути лише самі обчислювальні блоки, а дедалі більше — ефективність передачі даних. Дані свідчать, що у традиційних обчислювальних архітектурах переміщення даних може становити від 60% до 80% загального енергоспоживання системи. У сценаріях інференсу GPU можуть простоювати до 99% часу. Основним обмежувальним чинником є пропускна здатність пам’яті.
Завдяки технологіям вертикального складання (3D stacking) і наскрізних кремнієвих каналів (TSV), HBM забезпечує значно більшу пропускну здатність і енергоефективність на одиницю площі, ніж традиційна пам’ять, і вже стала стандартною складовою AI-акселераторів від NVIDIA, AMD, Google та інших провідних гравців галузі.
Технічні принципи: як HBM змінює канал передачі даних між GPU та пам’яттю
Від "плоскої гоночної траси" до "вертикального ліфта"
HBM — це не новий тип носія даних, а набір специфікацій інтерфейсу та пакування, які визначають, "як з’єднувати DRAM для надвисокої пропускної здатності". Основний технологічний стек HBM складається з трьох рівнів:
3D-складання — кілька шарів DRAM-чипів вертикально укладаються один на одного (основні конфігурації наразі мають від 8 до 12 шарів, HBM4 просувається до 16 шарів), що дозволяє збільшити щільність зберігання та кількість паралельних каналів у межах одного фізичного простору.
Наскрізний кремнієвий канал (TSV) — мікроскопічні отвори діаметром лише 5–10 мікронів створюються всередині кожного шару DRAM і заповнюються провідним матеріалом, формуючи вертикальні канали для десятків тисяч міжшарових з’єднань. Це суттєво відрізняється від традиційного з’єднання через друковану плату, де довжина провідників вимірюється сантиметрами чи метрами, а у TSV — передача сигналу здійснюється на мікронній відстані, що значно зменшує затухання сигналу та затримки.
Кремнієвий інтерпозер — HBM-стек з’єднується з кремнієвим інтерпозером через мікро-буми, а той — з GPU/CPU через надкороткі канали, формуючи єдиний модуль пакування. Вся структура використовує сучасні технології пакування 2,5D, такі як CoWoS, для високої щільності інтеграції.
Прорив цієї архітектури полягає у ширині шини. Один HBM-стек зазвичай має шину на 1024 біти, а HBM3E може масштабуватися до 2048 біт. Наприклад, новітній масово вироблений чип HBM3E від SK hynix має об’єм 24GB і пропускну здатність понад 1TB/s. Для порівняння, традиційні рішення GDDR забезпечують лише 32 біти на чип (або 384 біти в багаточипових конфігураціях), що створює різницю в порядках величини щодо можливостей передачі даних.
Основна ідея HBM — "широко і повільно": загальна пропускна здатність досягається завдяки масовій кількості паралельних каналів, кожен з яких працює на відносно низькій частоті, що забезпечує значно кращу енергоефективність порівняно з високочастотними рішеннями. GDDR дотримується логіки "вузько і швидко" — максимізує пропускну здатність через кілька каналів, підвищуючи частоту роботи. Ці підходи відповідають різним сценаріям використання: HBM орієнтована на максимальну пропускну здатність, GDDR — на баланс між пропускною здатністю та вартістю.
HBM vs GDDR6: битва "широко і повільно" проти "вузько і швидко"
HBM і GDDR6 — представники сімейства DRAM-пам’яті, які виконують роль каналів доступу до даних для GPU, але суттєво відрізняються за цільовими характеристиками, продуктивністю та структурою витрат.
Пропускна здатність: HBM3E забезпечує до 1,2TB/s на стек, а наступне покоління HBM4 має перевищити 2,0TB/s. GDDR6X досягає близько 1TB/s на карту, що вже наближається до фізичних меж у флагманських продуктах. Однак HBM значно перевершує GDDR за енергоефективністю на одиницю пропускної здатності, що прямо впливає на операційні витрати у великих AI-центрах обробки даних.
Енергоспоживання та затримка: Завдяки надкоротким вертикальним каналам TSV, HBM споживає приблизно на 30% менше енергії, ніж GDDR5. Щодо затримки: GDDR використовує провідники друкованої плати для зв’язку з GPU, що призводить до затримок на рівні мікросекунд; HBM, розташована безпосередньо біля чипа GPU, зменшує затримку до наносекунд. Важливо: у сценаріях екстремальної пропускної здатності випадкова затримка доступу HBM трохи більша, ніж у GDDR, але для масового паралельного потокового доступу — основного режиму для AI-навчання та інференсу — ключовим є саме пропускна здатність.
Вартість: Це найочевидніший недолік HBM. Галузеві дані показують, що HBM коштує понад $25 за 1GB, тоді як GDDR6 — лише $5–8 за 1GB. HBM може становити від 60% до 80% вартості топових GPU. GDDR6 фактично має кращу продуктивність за співвідношенням ціна/пропускна здатність — якщо не потрібна абсолютна пікова пропускна здатність, GDDR6 є більш економічним вибором.
Підсумовуючи: вибір між HBM і GDDR — це баланс між граничною продуктивністю та обмеженнями бюджету. HBM необхідна у випадках, коли "потрібно досягти певного порогу пропускної здатності для роботи", наприклад, для інференсу моделей з трильйонними параметрами. Якщо пропускна здатність нижча за цей поріг, система просто не працюватиме ефективно. GDDR6 підходить для сценаріїв, де "достатня продуктивність за мінімальної вартості" є пріоритетом, наприклад, для розгортання малих і середніх моделей (7B–13B параметрів).
Ці технології не є взаємозамінними, а розвиваються паралельно для різних потреб. Однак у навчанні AI та масштабному інференсі переваги HBM поступово витісняють GDDR з основної арени.
Дилема "стіни пам’яті": чому попит на HBM зростає експоненційно разом із масштабом AI-моделей
Щоб зрозуміти вибухове зростання попиту на HBM, потрібно повернутися до фундаментального вузького місця AI-обчислень — "стіни пам’яті".
Зростаючий розрив між обчислювальною потужністю та пропускною здатністю
За останні тридцять років продуктивність процесорів подвоювалася кожні 18–24 місяці згідно із законом Мура, але пропускна здатність пам’яті відставала. Дослідження AI і "стіни пам’яті" показують: обчислювальна потужність моделей AI зростає приблизно втричі кожні два роки, а пропускна здатність пам’яті — лише в 1,6 раза, пропускна здатність міжчипових з’єднань — ще менше. Це означає, що кожне оновлення обчислювальної потужності зменшує відносну цінність можливостей передачі пам’яті.
Ця суперечність особливо гостра в інференсі. Навчання базується на множенні матриць (GEMM) з високою обчислювальною щільністю — інтенсивність арифметичних операцій може перевищувати 100+ FLOPs/байт. Інференс же орієнтований на множення матриці на вектор (GEMV), де інтенсивність часто нижче 2 FLOPs/байт. Чим нижча арифметична інтенсивність, тим більше продуктивність системи залежить від пропускної здатності пам’яті, а не від обчислювальної потужності — це ефект "стіни пропускної здатності".
"Тягар передачі" при інференсі великих моделей
Базовий процес інференсу великих моделей такий: для кожного згенерованого токена всі параметри моделі мають бути завантажені з пам’яті до обчислювального ядра. Наприклад, модель Llama 3 70B: при точності FP16 вага параметрів становить близько 140GB. Для кожного токена потрібно перемістити всі 140GB параметрів. Щоб забезпечити плавну генерацію 30 токенів за секунду, пропускна здатність між HBM і обчислювальним ядром має підтримувати приблизно 4,2TB передач за секунду.
Ця потреба вже наближається до меж можливостей сучасного обладнання. NVIDIA H100 SXM5 забезпечує 3,35TB/s пропускної здатності HBM. Тобто навіть топовий AI-акселератор ледве справляється з моделлю на 70B параметрів. Зі збільшенням масштабів моделей до сотень мільярдів, трильйонів і більше, необхідна пропускна здатність зростає лінійно або навіть швидше.
Подвійні обмеження: об’єм і пропускна здатність
Об’єм пам’яті — ще один критичний параметр. Якщо розмір параметрів моделі перевищує об’єм HBM одного GPU, модель доводиться розподіляти між кількома GPU для паралельної роботи — це називається тензорним паралелізмом. Але розподіл створює нове вузьке місце: часту передачу проміжних результатів між GPU, що зрештою знижує загальну ефективність.
Отже, цінність HBM проявляється у двох вимірах: пропускна здатність визначає швидкість інференсу на одній карті та мінімальну затримку, об’єм — чи поміститься модель на одній карті, скільки карт потрібно, і яку ціну матиме міжкартова передача.
Галузевий вектор очевидний: HBM переходить від "преміальної опції" до "стандартної конфігурації" для AI-обчислювальної потужності. За даними TrendForce, попит на HBM зросте більш ніж на 130% рік до року у 2025 році та продовжить зростати понад 70% у 2026 році. HBM вже перейшла від допоміжної ролі у графічній обробці до незамінного ядра AI-обчислювального ланцюга.
Галузевий вплив: від технічних рішень до дисбалансу попиту й пропозиції на ринку
Розширення ринку
Ринок HBM розвивається швидше, ніж прогнозували більшість інституцій. За даними SEMI China, ринок HBM зросте на 58% до $54,6 млрд у 2026 році, що становитиме майже 40% від загального ринку DRAM. Micron оцінює, що TAM (Total Addressable Market) HBM зростатиме приблизно на 40% щороку: з $35 млрд у 2025 році до $100 млрд у 2028 році — перевищуючи розмір усього ринку DRAM у 2024 році.
Жорсткі обмеження пропозиції
Однак стрімке зростання попиту стикається з жорсткими обмеженнями на стороні пропозиції. Дані SEMI показують: хоча Samsung, SK hynix і Micron спрямували 70% нових/регульованих потужностей на виробництво HBM, загальний дефіцит потужностей HBM залишається на рівні 50–60%.
Вузьке місце — у високих технологічних бар’єрах виробництва HBM. Для цього потрібні передові DRAM-процеси (лідери вже працюють на вузлі 1β нм), а також TSV-травлення, мікробампінг, пакування на рівні пластин та інші сучасні технології пакування. Потужності TSMC CoWoS — ключової платформи для інтеграції HBM і GPU — мають зрости до понад 125 000 пластин на місяць до кінця 2026 року, що на 79% більше, ніж рік тому, але все одно недостатньо для покриття замовлень NVIDIA, AMD, Broadcom та інших.
Ризики ланцюга постачання та передача цін
Дефіцит потужностей прямо впливає на ціни. У 2025 році ціни на HBM3E зросли на 5–10%. Важливіше те, що коли три основні виробники переключають потужності на HBM, зменшується постачання споживчої DDR-пам’яті, і ціни на неї також зростатимуть до кінця 2026 року. Дефіцит HBM впливає на ширший ринок пам’яті, витісняючи інші сегменти.
У червні 2026 року Дженсен Хуанг підтвердив, що SK hynix, Samsung і Micron пройшли сертифікацію та розпочали масове постачання чипів HBM4, причому Samsung стала лідером, запустивши масове виробництво HBM4 у лютому 2026 року. Проте навіть із одночасним розширенням трьох гігантів дефіцит HBM збережеться на рівні близько 50% у 2025–2026 роках. Досягти балансу попиту й пропозиції у короткостроковій перспективі буде складно. Темпи розширення потужностей у верхньому ланцюгу, вузькі місця пакування та стрімке зростання попиту на AI-обчислення разом формують динамічний, але постійно напружений ландшафт балансу на ринку.
Висновок
Від фундаментальних технологічних інновацій до жорсткої залежності у сценаріях AI-обчислень і дисбалансу попиту й пропозиції по всьому ланцюгу галузі, HBM перетворилася з гілки технології пам’яті на ядро конкурентної боротьби за AI-інфраструктуру.
Незамінність HBM у навчанні та інференсі AI базується на базовому принципі обчислень: коли розмір параметрів моделі перевищує певний поріг, пропускна здатність перестає бути "оптимізацією" і стає "умовою функціонування" — нижче порогу система просто не працюватиме ефективно. GDDR6 має перевагу за ціною, але її архітектура з вузькими каналами і високою частотою не здатна забезпечити потрібну пропускну здатність і енергоефективність для моделей з трильйонними параметрами. Ця структурна різниця означає, що HBM і GDDR — не просто конкуренти, а багаторівневі рішення для різних вимог у ядрі AI-обчислень.
У перспективі масове виробництво HBM4 (з очікуваною пропускною здатністю понад 2TB/s на стек), зрілість 16-шарового складання та нові технології пакування, такі як hybrid bonding, ще більше підвищать граничні можливості HBM. Водночас варто зазначити, що такі компанії, як Huawei, досліджують алгоритмічні оптимізації для зменшення залежності від HBM, а альтернативи на кшталт SRAM і архітектур обчислень у пам’яті розвиваються паралельно. Чи зможе HBM зберегти лідерство у наступних технологічних циклах і чи вдасться пом’якшити вузькі місця постачання у майбутньому — це одні з найважливіших змінних для спостереження у галузі AI-обчислень у найближчі роки.




