25 березня акції технологічних компаній США здебільшого зросли, індекс Nasdaq 100 закрився в плюсі. Проте одна група акцій відхилилася від цього тренду та зазнала втрат:
SanDisk знизилася на 3,50 %, Micron впала на 3,4 %, Seagate подешевшала на 2,59 %, а Western Digital — на 1,63 %. Увесь сектор сховищ виглядав так, ніби посеред вечірки вимкнули світло.
Причиною цього стала наукова стаття — точніше, офіційна увага Google Research до нового дослідження.
Щоб зрозуміти її значущість, спершу потрібно розібратися з рідко обговорюваним поняттям інфраструктури ШІ: KV Cache.
Під час взаємодії з великою мовною моделлю вона не починає з нуля із кожним запитанням. Весь контекст розмови зберігається в пам’яті у вигляді «пар ключ-значення» — це й є KV Cache, короткострокова робоча пам’ять моделі.
Проблема в тому, що KV Cache зростає пропорційно до довжини контекстного вікна. Коли контекст досягає масштабу мільйона токенів, обсяг пам’яті GPU, який споживає KV Cache, може навіть перевищувати обсяг параметрів самої моделі. Для кластерів інференсу, що одночасно обслуговують багатьох користувачів, це створює реальне вузьке місце в інфраструктурі та підвищує витрати.
Оригінальна версія цієї статті з’явилася на arXiv у квітні 2025 року, а офіційна публікація запланована на ICLR 2026. Google Research назвала цей алгоритм TurboQuant — безвтратний метод квантизації, який стискає KV Cache до 3 бітів, зменшуючи споживання пам’яті щонайменше в шість разів. Жодного навчання чи донастройки не потрібно — все працює одразу.
Технічний підхід складається з двох основних етапів:
Крок 1: PolarQuant. Замість стандартної декартової системи координат для векторів використовується полярна система — із «радіусом» і набором «кутів». Це суттєво спрощує геометрію багатовимірного простору, дозволяючи подальшу квантизацію з меншими спотвореннями.
Крок 2: QJL (Quantized Johnson-Lindenstrauss). Після основного стиснення за допомогою PolarQuant, TurboQuant застосовує однобітове QJL-перетворення для необмеженої корекції залишкової помилки, забезпечуючи точну оцінку внутрішнього добутку — що критично для механізму уваги Transformer.
Результати: на бенчмарку LongBench, який охоплює відповіді на запитання, генерацію коду та узагальнення, TurboQuant досяг або навіть перевищив найкращий існуючий базовий рівень KIVI. На завданнях пошуку «голки в копиці сіна» досягнуто ідеальної повноти. На NVIDIA H100 4-бітний TurboQuant прискорив операції логіки уваги до 8 разів.
Традиційні методи квантизації мають фундаментальний недолік: кожен стиснутий блок даних потребує додаткового сховища для «квантизаційних констант», необхідних для декомпресії, що додає 1–2 біти на значення. Хоча це може здаватися незначним, при мільйонних контекстах ці біти швидко накопичуються. TurboQuant повністю усуває ці накладні витрати завдяки геометричному обертанню PolarQuant і однобітовій залишковій корекції QJL.
Важко ігнорувати наслідки: модель, якій раніше було потрібно вісім H100 для обслуговування мільйонного контексту, теоретично може впоратися лише з двома. Провайдери інференсу можуть обробляти понад у шість разів більше одночасних довгоконтекстних запитів на тому ж обладнанні.
Це безпосередньо підриває основний наратив для сектора сховищ.
За останні два роки Seagate, Western Digital і Micron отримали вигоду від буму інвестицій у ШІ з однієї причини: Чим більше великі моделі «запам’ятовують», тим безмежнішим здається попит на пам’ять із довгими контекстними вікнами, і очікується вибуховий ріст попиту на сховища. Акції Seagate злетіли більш ніж на 210 % у 2025 році, а виробничі потужності на 2026 рік уже розпродані.
Поява TurboQuant безпосередньо кидає виклик цій основі.
Технологічний аналітик Wells Fargo Ендрю Роча підсумував: «Коли контекстні вікна стають більшими, дані в KV Cache зростають вибухоподібно, і попит на пам’ять підвищується. TurboQuant безпосередньо впливає на цю криву витрат… Якщо його широко впровадять, це докорінно ставить під сумнів, скільки пам’яті насправді потрібно».
Втім, Роча наголосив на ключовій умові: ЯКЩО.
Чи ринок відреагував надто гостро? Найімовірніше, так — принаймні частково.
По-перше, заголовок про «8-кратне прискорення» є оманливим. Декілька аналітиків відзначили, що це прискорення вимірюється порівняно зі старими 32-бітними неквантизованими системами, а не вже оптимізованими рішеннями, які впроваджені зараз. Реальне зростання продуктивності існує, але воно не таке драматичне, як це подають заголовки.
По-друге, у статті тестували лише невеликі моделі. Всі оцінки TurboQuant проводилися на моделях до 8 млрд параметрів. Основний виклик для постачальників сховищ — це моделі на 70 млрд чи навіть 400 млрд параметрів, де KV Cache стає справді гігантським. Продуктивність TurboQuant на таких масштабах поки невідома.
По-третє, Google не опублікувала жодного офіційного коду. Наразі TurboQuant відсутній у vLLM, llama.cpp, Ollama чи будь-якому популярному фреймворку інференсу. Розробники спільноти вже реалізували ранні версії на основі математичних викладок статті, і один із перших відтворювачів зазначив, що якщо корекцію помилки QJL виконати неправильно, результат може стати нечитаємим.
Утім, це не означає, що ринкові побоювання безпідставні.
Це колективна ринкова пам’ять після події DeepSeek у 2025 році. Той випадок став суворим уроком: Алгоритмічні прориви в ефективності можуть миттєво зруйнувати наративи про дорогий хардвер. Відтоді будь-який прорив у ефективності з провідної лабораторії ШІ автоматично впливає на акції хардверних компаній.
Крім того, сигнал надходить від Google Research, а не маловідомої університетської лабораторії. Google має ресурси, щоб перетворювати наукові статті на виробничі інструменти, і сама є одним із найбільших споживачів інференсу ШІ у світі. Коли TurboQuant буде впроваджено всередині компанії, це може непомітно змінити стратегії закупівель серверів для Waymo, Gemini і Google Search.
Тут варто згадати класичну дискусію: Парадокс Джевонса.
Економіст XIX століття Вільям Джевонс помітив, що підвищення ефективності парових машин не зменшило споживання вугілля у Великій Британії — навпаки, воно різко зросло. Зниження витрат через ефективність стимулювало значно ширше впровадження.
Прихильники стверджують: якщо Google дозволяє запускати модель на 16 ГБ VRAM, розробники не обмежаться цим — вони використають звільнені ресурси для запуску моделей у шість разів складніших, обробки більших мультимодальних датасетів і підтримки ще довших контекстів. У підсумку ефективність програмного забезпечення відкриває попит, який раніше був недосяжний через високу вартість.
Однак ця контраргументація базується на тому, що ринок встигає адаптуватися й розширитися. У період, коли TurboQuant переходить від статті до виробничого інструменту та галузевого стандарту, чи зможе попит на хардвер зростати достатньо швидко, щоб заповнити «прогалину» від підвищення ефективності?
Ніхто не знає відповіді. Ринок враховує цю невизначеність у цінах.
Більш важливим, ніж волатильність акцій сектору сховищ, є глибший тренд, який виявив TurboQuant.
Головне поле битви в гонці ШІ зміщується від «масштабування обчислень» до «максимізації ефективності».
Якщо TurboQuant підтвердить свою ефективність на великих моделях, це може спричинити фундаментальний зсув: інференс із довгим контекстом стане стандартом галузі, а не розкішшю для топових лабораторій.
Це змагання ефективності — сфера, де Google особливо сильна: розробка математично близьких до оптимальних алгоритмів стиснення, пошук меж теорії інформації Шеннона, а не просто інженерія «в лоб». Теоретичний рівень спотворення TurboQuant лише близько у 2,7 раза перевищує інформаційно-теоретичну межу.
Це свідчить, що подібні прориви, ймовірно, з’являться й надалі. Це ознака зрілості цілого дослідницького напряму.
Для індустрії сховищ тверезе питання не «Чи вплине це на попит цього разу?», а: Якщо витрати на інференс ШІ постійно знижуються завдяки програмному забезпеченню, наскільки широким залишиться «рів хардверу»?
Відповідь наразі: він усе ще широкий, але ці сигнали ігнорувати не можна.
Ця стаття передрукована з [TechFlow], авторські права належать оригінальному автору [TechFlow]. Якщо у вас є питання щодо передруку, зверніться до команди Gate Learn, яка оперативно вирішить їх згідно з відповідними процедурами.
Застереження: Погляди й думки, висловлені в цій статті, належать виключно автору й не є інвестиційною порадою.
Інші мовні версії цієї статті перекладені командою Gate Learn. Якщо не зазначено інше з посиланням на Gate, перекладені матеріали не можна копіювати, розповсюджувати чи плагіатити.





