На CES 2026 генеральний директор NVIDIA Дженсен Хуанг провів всеохоплюючу ключову промову, яка переосмислила розмову про інфраструктуру ШІ навколо єдиного організаційного принципу: інтелектуальне апаратне прискорення та планування GPU як основи економіки висновків. Протягом 1,5 години він представив вісім ключових розробок, які разом відображають перехід від тренувального AI до систем, оптимізованих для висновків. Основною ниткою, що пов’язує всі анонси, є те, як складне планування GPU — від розподілу обчислень до розподілу ресурсів — дозволяє ефективно масштабувати високопродуктивне AI.
Системний рівень прискорення GPU: революційний дизайн платформи Vera Rubin
Центральним елементом стратегії NVIDIA є суперкомп’ютер AI Vera Rubin, система з шести чипів, спільно розроблена для переосмислення роботи прискорення GPU на рівні стійки. Архітектура платформи — що складається з Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU та Spectrum-X CPO — відображає відхід від модульних конструкцій до глибоко інтегрованого апаратного прискорення.
GPU Rubin вводить трансформерний двигун і досягає до 50 PFLOPS продуктивності для висновків NVFP4, що в 5 разів перевищує Blackwell. Ще важливіше, що пропускна здатність NVLink 3.6TB/s та підтримка апаратних тензорних операцій забезпечують безпрецедентну ефективність планування GPU. NVLink 6 Switch, що працює на 400 Гбіт/с на смугу, координує комунікацію між GPU з сумарною пропускною здатністю 28,8 ТБ/с, дозволяючи системі планувати обчислення між GPU з мінімальними затримками.
Інтегрована у систему Vera Rubin NVL72, ця апаратна прискорення досягає 3,6 EFLOPS продуктивності для висновків — у 5 разів більше, ніж попереднє покоління. Система містить 2 трильйони транзисторів і має 100% рідинне охолодження, що дозволяє щільне планування GPU без теплових обмежень. Час збірки зменшився до п’яти хвилин, що у 18 разів швидше за попередні покоління, що свідчить про те, як стандартизація фреймворків GPU спрощує розгортання.
Ефективність висновків через інтелектуальне планування GPU та розподіл ресурсів
Три нові продукти NVIDIA для висновків безпосередньо адресують проблему планування GPU на різних рівнях системи. Spectrum-X Ethernet з інтегрованою оптикою (CPO) оптимізує комутаційну мережу між GPU. Вбудовуючи оптику безпосередньо у комутаційний силікон, CPO досягає у 5 разів кращої енергоефективності та у 5 разів більшої надійності роботи додатків. Цей архітектурний вибір забезпечує мінімальні енергетичні накладні витрати при плануванні GPU.
Платформа NVIDIA Inference Context Memory Storage вирішує іншу проблему планування — управління контекстом. Оскільки AI-моделі переходять до агентного мислення з багатомільйонними вікнами токенів, збереження та відновлення контексту стає головним вузьким місцем. Ця нова рівень зберігання, прискорена BlueField-4 DPU та інтегрована з інфраструктурою NVLink, дозволяє GPU делегувати обчислення кешу ключ-значення спеціалізованим вузлам зберігання. Результат — у 5 разів кращі висновки та у 5 разів менше енергоспоживання, досягається не лише швидшими GPU, а й інтелектуальним плануванням обчислень і ресурсів зберігання.
SuperPOD NVIDIA DGX, побудований на восьми системах Vera Rubin NVL72, демонструє масштабованість планування GPU у масштабі поду. Використання NVLink 6 для вертикального масштабування та Spectrum-X Ethernet для горизонтального дозволяє знизити вартість токенів для великих моделей (MoE) до 1/10 попереднього покоління. Це 10-кратне зниження вартості відображає складний ефект оптимізованого планування GPU: менше витрачених обчислювальних циклів, менше накладних витрат на передачу даних і краща ефективність ресурсів.
Багаторівневе зберігання та управління контекстом GPU: вирішення нової вузької частини для висновків
Перехід від тренування до висновків кардинально змінює спосіб планування ресурсів GPU. Під час тренування використання GPU є передбачуваним і стабільним. Під час висновків, особливо з довгим контекстом, шаблони запитів є нерегулярними, і повторне використання контексту є критичним. Новий платформний рівень зберігання NVIDIA вирішує цю проблему, вводячи ієрархію пам’яті, оптимізовану для висновків: пам’ять GPU HBM4 для активних обчислень, новий рівень пам’яті для управління кешем ключ-значення та традиційне зберігання для постійних даних.
Планування GPU тепер має балансувати між обчислювальними задачами та рішеннями щодо планування контексту. BlueField-4 DPU прискорює переміщення контексту між цими рівнями, а інтелектуальне програмне забезпечення планує запуск ядер GPU так, щоб перекривати попереднє завантаження контексту. Цей спільний дизайн — що охоплює обчислення GPU, прискорення DPU та мережеву ефективність — усуває зайві перерахунки кешу KV, що раніше ускладнювали довгий контекст висновків.
Відкриті моделі та оптимізовані фреймворки GPU: побудова фізичної екосистеми AI
Розширена стратегія відкритого коду NVIDIA відображає усвідомлення, що прискорення GPU має цінність лише у процвітаючій програмній екосистемі. У 2025 році NVIDIA стала найбільшим внеском у відкриті моделі на Hugging Face, випустивши 650 моделей і 250 датасетів. Ці моделі все більше оптимізовані для архітектури планування GPU NVIDIA — вони використовують трансформерні двигуни, застосовують NVFP4 і узгоджуються з ієрархіями пам’яті NVLink.
Нова платформа “Blueprints” дозволяє розробникам створювати багатомодельні гібридні хмарні системи AI. Ці системи інтелектуально планують висновки між локальними GPU та хмарними моделями, залежно від затримки та вартості. Випуск Alpamayo, моделі для автономного водіння з 10 мільярдами параметрів, є прикладом такого підходу. Alpamayo ефективно працює на оптимізованих для висновків GPU, демонструючи, як продумане планування GPU у парі з архітектурою моделі дозволяє складне мислення навіть на споживчому обладнанні.
Інтеграція NVIDIA CUDA-X, моделей AI та Omniverse у промислові цифрові двійники розширює прискорення GPU у виробництві та операціях. Цей партнерський проект ілюструє, як фреймворки планування GPU стають інфраструктурою для цілих галузей.
Стратегічне бачення: від обчислювальної потужності GPU до повної системної прискореності
Послідовність анонсів NVIDIA демонструє цілеспрямовану стратегію: кожен новий рівень продукту — від дизайну ядра GPU до мережевого комутування та архітектури зберігання — переосмислюється для задач висновків. Результатом є система, де планування GPU вже не є другорядною проблемою, а є центральним принципом дизайну.
Спостереження Дженсена Хуана, що “момент ChatGPT для фізичного AI настав”, ґрунтується на цій інфраструктурній основі. Автономні транспортні засоби з моделями Alpamayo потребують GPU, здатних планувати реальні часи висновків у непередбачуваних умовах. Роботи, що працюють через фреймворки GR00T, вимагають GPU, які ефективно планують багатомодальне сприйняття та мислення. Ці застосунки фізичного AI можливі лише тому, що NVIDIA переосмислила прискорення GPU — від кремнію до програмного стеку.
Конкурентна оборона NVIDIA складається з трьох елементів: постійного покращення ефективності планування GPU (5x покращень покоління за поколінням), відкриття програмного забезпечення для стимулювання впровадження (650 моделей, 250 датасетів), та ускладнення інфраструктурної інтеграції апаратного й програмного забезпечення, що ускладнює її копіювання. Кожен анонс на CES 2026 — від спільно розроблених чипів Vera Rubin до платформи управління контекстом — поглиблює можливості прискорення GPU і водночас підвищує планку для конкурентних архітектур.
У міру того, як індустрія AI переходить від дефіциту тренувань до надлишку висновків, планування GPU стає головним обмежувачем витрат і продуктивності. Повноцінний підхід NVIDIA до стеку гарантує, що її можливості апаратного прискорення визначатимуть інфраструктурний рівень для наступного десятиліття розвитку AI.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Архітектура NVIDIA з апаратним прискоренням GPU: як планування апаратного забезпечення сприяє революції в інференції на CES 2026
На CES 2026 генеральний директор NVIDIA Дженсен Хуанг провів всеохоплюючу ключову промову, яка переосмислила розмову про інфраструктуру ШІ навколо єдиного організаційного принципу: інтелектуальне апаратне прискорення та планування GPU як основи економіки висновків. Протягом 1,5 години він представив вісім ключових розробок, які разом відображають перехід від тренувального AI до систем, оптимізованих для висновків. Основною ниткою, що пов’язує всі анонси, є те, як складне планування GPU — від розподілу обчислень до розподілу ресурсів — дозволяє ефективно масштабувати високопродуктивне AI.
Системний рівень прискорення GPU: революційний дизайн платформи Vera Rubin
Центральним елементом стратегії NVIDIA є суперкомп’ютер AI Vera Rubin, система з шести чипів, спільно розроблена для переосмислення роботи прискорення GPU на рівні стійки. Архітектура платформи — що складається з Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU та Spectrum-X CPO — відображає відхід від модульних конструкцій до глибоко інтегрованого апаратного прискорення.
GPU Rubin вводить трансформерний двигун і досягає до 50 PFLOPS продуктивності для висновків NVFP4, що в 5 разів перевищує Blackwell. Ще важливіше, що пропускна здатність NVLink 3.6TB/s та підтримка апаратних тензорних операцій забезпечують безпрецедентну ефективність планування GPU. NVLink 6 Switch, що працює на 400 Гбіт/с на смугу, координує комунікацію між GPU з сумарною пропускною здатністю 28,8 ТБ/с, дозволяючи системі планувати обчислення між GPU з мінімальними затримками.
Інтегрована у систему Vera Rubin NVL72, ця апаратна прискорення досягає 3,6 EFLOPS продуктивності для висновків — у 5 разів більше, ніж попереднє покоління. Система містить 2 трильйони транзисторів і має 100% рідинне охолодження, що дозволяє щільне планування GPU без теплових обмежень. Час збірки зменшився до п’яти хвилин, що у 18 разів швидше за попередні покоління, що свідчить про те, як стандартизація фреймворків GPU спрощує розгортання.
Ефективність висновків через інтелектуальне планування GPU та розподіл ресурсів
Три нові продукти NVIDIA для висновків безпосередньо адресують проблему планування GPU на різних рівнях системи. Spectrum-X Ethernet з інтегрованою оптикою (CPO) оптимізує комутаційну мережу між GPU. Вбудовуючи оптику безпосередньо у комутаційний силікон, CPO досягає у 5 разів кращої енергоефективності та у 5 разів більшої надійності роботи додатків. Цей архітектурний вибір забезпечує мінімальні енергетичні накладні витрати при плануванні GPU.
Платформа NVIDIA Inference Context Memory Storage вирішує іншу проблему планування — управління контекстом. Оскільки AI-моделі переходять до агентного мислення з багатомільйонними вікнами токенів, збереження та відновлення контексту стає головним вузьким місцем. Ця нова рівень зберігання, прискорена BlueField-4 DPU та інтегрована з інфраструктурою NVLink, дозволяє GPU делегувати обчислення кешу ключ-значення спеціалізованим вузлам зберігання. Результат — у 5 разів кращі висновки та у 5 разів менше енергоспоживання, досягається не лише швидшими GPU, а й інтелектуальним плануванням обчислень і ресурсів зберігання.
SuperPOD NVIDIA DGX, побудований на восьми системах Vera Rubin NVL72, демонструє масштабованість планування GPU у масштабі поду. Використання NVLink 6 для вертикального масштабування та Spectrum-X Ethernet для горизонтального дозволяє знизити вартість токенів для великих моделей (MoE) до 1/10 попереднього покоління. Це 10-кратне зниження вартості відображає складний ефект оптимізованого планування GPU: менше витрачених обчислювальних циклів, менше накладних витрат на передачу даних і краща ефективність ресурсів.
Багаторівневе зберігання та управління контекстом GPU: вирішення нової вузької частини для висновків
Перехід від тренування до висновків кардинально змінює спосіб планування ресурсів GPU. Під час тренування використання GPU є передбачуваним і стабільним. Під час висновків, особливо з довгим контекстом, шаблони запитів є нерегулярними, і повторне використання контексту є критичним. Новий платформний рівень зберігання NVIDIA вирішує цю проблему, вводячи ієрархію пам’яті, оптимізовану для висновків: пам’ять GPU HBM4 для активних обчислень, новий рівень пам’яті для управління кешем ключ-значення та традиційне зберігання для постійних даних.
Планування GPU тепер має балансувати між обчислювальними задачами та рішеннями щодо планування контексту. BlueField-4 DPU прискорює переміщення контексту між цими рівнями, а інтелектуальне програмне забезпечення планує запуск ядер GPU так, щоб перекривати попереднє завантаження контексту. Цей спільний дизайн — що охоплює обчислення GPU, прискорення DPU та мережеву ефективність — усуває зайві перерахунки кешу KV, що раніше ускладнювали довгий контекст висновків.
Відкриті моделі та оптимізовані фреймворки GPU: побудова фізичної екосистеми AI
Розширена стратегія відкритого коду NVIDIA відображає усвідомлення, що прискорення GPU має цінність лише у процвітаючій програмній екосистемі. У 2025 році NVIDIA стала найбільшим внеском у відкриті моделі на Hugging Face, випустивши 650 моделей і 250 датасетів. Ці моделі все більше оптимізовані для архітектури планування GPU NVIDIA — вони використовують трансформерні двигуни, застосовують NVFP4 і узгоджуються з ієрархіями пам’яті NVLink.
Нова платформа “Blueprints” дозволяє розробникам створювати багатомодельні гібридні хмарні системи AI. Ці системи інтелектуально планують висновки між локальними GPU та хмарними моделями, залежно від затримки та вартості. Випуск Alpamayo, моделі для автономного водіння з 10 мільярдами параметрів, є прикладом такого підходу. Alpamayo ефективно працює на оптимізованих для висновків GPU, демонструючи, як продумане планування GPU у парі з архітектурою моделі дозволяє складне мислення навіть на споживчому обладнанні.
Інтеграція NVIDIA CUDA-X, моделей AI та Omniverse у промислові цифрові двійники розширює прискорення GPU у виробництві та операціях. Цей партнерський проект ілюструє, як фреймворки планування GPU стають інфраструктурою для цілих галузей.
Стратегічне бачення: від обчислювальної потужності GPU до повної системної прискореності
Послідовність анонсів NVIDIA демонструє цілеспрямовану стратегію: кожен новий рівень продукту — від дизайну ядра GPU до мережевого комутування та архітектури зберігання — переосмислюється для задач висновків. Результатом є система, де планування GPU вже не є другорядною проблемою, а є центральним принципом дизайну.
Спостереження Дженсена Хуана, що “момент ChatGPT для фізичного AI настав”, ґрунтується на цій інфраструктурній основі. Автономні транспортні засоби з моделями Alpamayo потребують GPU, здатних планувати реальні часи висновків у непередбачуваних умовах. Роботи, що працюють через фреймворки GR00T, вимагають GPU, які ефективно планують багатомодальне сприйняття та мислення. Ці застосунки фізичного AI можливі лише тому, що NVIDIA переосмислила прискорення GPU — від кремнію до програмного стеку.
Конкурентна оборона NVIDIA складається з трьох елементів: постійного покращення ефективності планування GPU (5x покращень покоління за поколінням), відкриття програмного забезпечення для стимулювання впровадження (650 моделей, 250 датасетів), та ускладнення інфраструктурної інтеграції апаратного й програмного забезпечення, що ускладнює її копіювання. Кожен анонс на CES 2026 — від спільно розроблених чипів Vera Rubin до платформи управління контекстом — поглиблює можливості прискорення GPU і водночас підвищує планку для конкурентних архітектур.
У міру того, як індустрія AI переходить від дефіциту тренувань до надлишку висновків, планування GPU стає головним обмежувачем витрат і продуктивності. Повноцінний підхід NVIDIA до стеку гарантує, що її можливості апаратного прискорення визначатимуть інфраструктурний рівень для наступного десятиліття розвитку AI.