Gate Learn

Makalah penelitian memicu penurunan token penyimpanan.

Menengah

AI AI

Terakhir Diperbarui 2026-03-30 09:21:25

Waktu Membaca: 7m

Artikel ini mengulas keterbatasan dalam perbandingan tolok ukur, skala model, serta penerapan rekayasa. Melalui pengenalan DeepSeek efficiency shock dan paradoks Jevons, artikel ini mengeksplorasi bagaimana inovasi efisiensi mampu melakukan squeeze terhadap permintaan hardware jangka pendek sekaligus membuka peluang ekspansi aplikasi jangka panjang yang lebih luas.

Pada 25 Maret, saham teknologi Amerika Serikat mengalami kenaikan secara luas, dengan Indeks Nasdaq 100 ditutup menguat. Namun, ada satu kelompok saham yang justru bergerak berlawanan dan mencatatkan penurunan:

SanDisk turun 3,50%, Micron merosot 3,4%, Seagate melemah 2,59%, dan Western Digital terkoreksi 1,63%. Sektor penyimpanan secara keseluruhan seolah-olah mengalami pemadaman listrik di tengah pesta.

Pemicunya adalah sebuah makalah penelitian—atau lebih tepatnya, sorotan resmi dari Google Research terhadap sebuah studi baru.

Apa Sebenarnya Isi Makalah Ini?

Untuk memahami signifikansinya, Anda perlu mengenal satu konsep infrastruktur AI yang jarang dibahas: KV Cache.

Saat Anda berinteraksi dengan model bahasa besar, model tersebut tidak memulai dari nol untuk setiap pertanyaan. Sebaliknya, seluruh konteks percakapan disimpan dalam memori sebagai “key-value pairs”—itulah KV Cache, memori kerja jangka pendek model.

Permasalahannya, KV Cache bertambah secara proporsional dengan panjang context window. Ketika context window mencapai skala satu juta token, konsumsi memori GPU oleh KV Cache bahkan bisa melebihi parameter model itu sendiri. Untuk klaster inferensi yang melayani banyak pengguna sekaligus, hal ini menjadi hambatan infrastruktur nyata dan meningkatkan biaya operasional.

Versi awal makalah ini dipublikasikan di arXiv pada April 2025 dan akan diterbitkan resmi di ICLR 2026. Google Research menamai algoritma ini TurboQuant—metode kuantisasi lossless yang mengompresi KV Cache menjadi 3 bit, sehingga penggunaan memori berkurang setidaknya enam kali lipat. Algoritma ini tidak memerlukan pelatihan atau fine-tuning dan langsung siap digunakan.

Pendekatan teknisnya terdiri dari dua langkah utama:

Langkah 1: PolarQuant. Alih-alih menggunakan sistem koordinat Kartesius standar untuk merepresentasikan vektor, metode ini mengkonversinya ke koordinat polar—terdiri dari “radius” dan sejumlah “sudut.” Cara ini secara fundamental menyederhanakan geometri ruang berdimensi tinggi, sehingga kuantisasi berikutnya menghasilkan distorsi yang lebih rendah.

Langkah 2: QJL (Quantized Johnson-Lindenstrauss). Setelah PolarQuant melakukan kompresi utama, TurboQuant menggunakan transformasi QJL satu bit untuk melakukan koreksi unbiased pada error yang tersisa, sehingga estimasi inner product tetap akurat—yang sangat krusial untuk mekanisme attention pada Transformer.

Hasilnya: Pada benchmark LongBench, yang mencakup question answering, code generation, dan summarization, TurboQuant mampu menyamai atau bahkan melampaui baseline terbaik saat ini, KIVI. Pada tugas retrieval “needle-in-a-haystack”, TurboQuant mencatat recall sempurna. Di NVIDIA H100, TurboQuant 4-bit mempercepat operasi attention logic hingga 8x.

Metode kuantisasi tradisional memiliki kelemahan mendasar: setiap blok data terkompresi membutuhkan ruang ekstra untuk “konstanta kuantisasi” yang digunakan saat dekompresi, menambah 1–2 bit per nilai. Meski tampak kecil, pada konteks jutaan token, akumulasi bit ini sangat signifikan. TurboQuant sepenuhnya menghilangkan overhead ini melalui rotasi geometris PolarQuant dan koreksi residual satu bit dari QJL.

Mengapa Pasar Panik?

Konsekuensinya sulit diabaikan: model yang sebelumnya membutuhkan delapan H100 untuk melayani context satu juta token, kini secara teori cukup dengan dua. Penyedia inferensi bisa menangani lebih dari enam kali permintaan long-context secara bersamaan dengan hardware yang sama.

Dampak ini secara langsung mengguncang narasi utama sektor penyimpanan.

Dalam dua tahun terakhir, Seagate, Western Digital, dan Micron diuntungkan oleh lonjakan investasi AI karena satu alasan utama: Semakin besar model “mengingat”, permintaan memori dengan context window panjang tampak tak terbatas, dan permintaan penyimpanan diproyeksikan melonjak. Saham Seagate bahkan melesat lebih dari 210% pada 2025 dan kapasitas produksi tahun 2026 sudah terjual habis.

Kehadiran TurboQuant secara langsung menggugat asumsi tersebut.

Analis teknologi Wells Fargo, Andrew Rocha, merangkum dengan jelas: “Ketika context window membesar, data yang disimpan di KV Cache tumbuh eksplosif, dan permintaan memori meningkat. TurboQuant menyerang langsung kurva biaya… Jika diadopsi secara luas, hal ini akan membuat kita mempertanyakan seberapa besar kapasitas memori sebenarnya dibutuhkan.”

Namun, Rocha juga menekankan satu syarat penting: JIKA.

Apa yang Sebenarnya Perlu Diperdebatkan?

Apakah pasar bereaksi berlebihan? Kemungkinan besar, ya—setidaknya dalam batas tertentu.

Pertama, klaim “akselerasi 8x” menyesatkan. Beberapa analis menyoroti bahwa percepatan 8x diukur terhadap sistem 32-bit non-kuantisasi yang sudah usang, bukan sistem yang telah dioptimalkan dan digunakan saat ini. Peningkatan performa memang nyata, namun tidak sedramatis yang diberitakan.

Kedua, makalah ini hanya diuji pada model kecil. Seluruh evaluasi TurboQuant menggunakan model hingga 8 miliar parameter. Tantangan utama bagi pemasok penyimpanan justru pada model 70 miliar atau bahkan 400 miliar parameter, di mana KV Cache benar-benar menjadi sangat besar. Performa TurboQuant pada skala ini masih menjadi tanda tanya.

Ketiga, Google belum merilis kode resmi. Sampai saat ini, TurboQuant belum tersedia di vLLM, llama.cpp, Ollama, atau framework inferensi utama lain. Pengembang komunitas telah membuat versi awal berdasarkan rumus di makalah, dan salah satu replikator awal mencatat bahwa jika koreksi error QJL tidak dilakukan dengan benar, hasilnya bisa tidak terbaca.

Namun, ini bukan berarti kekhawatiran pasar tidak berdasar.

Pasar masih mengingat peristiwa DeepSeek tahun 2025. Kejadian itu memberikan pelajaran pahit: Terobosan efisiensi algoritmik bisa langsung mengguncang narasi hardware mahal. Sejak saat itu, setiap terobosan efisiensi dari laboratorium AI papan atas selalu memicu reaksi refleks pada saham hardware.

Terlebih lagi, sinyal ini datang dari Google Research—bukan laboratorium universitas yang kurang dikenal. Google memiliki kapabilitas rekayasa untuk mengubah makalah menjadi produk nyata, dan merupakan salah satu konsumen inferensi AI terbesar di dunia. Begitu TurboQuant digunakan secara internal, hal ini bisa diam-diam mengubah strategi pengadaan server untuk Waymo, Gemini, dan Google Search.

Pola Klasik Terulang

Ada satu perdebatan klasik yang layak dicermati: Paradoks Jevons.

Ekonom abad ke-19 William Jevons mencatat bahwa peningkatan efisiensi mesin uap tidak mengurangi konsumsi batu bara Inggris—justru meningkat drastis. Efisiensi yang menurunkan biaya justru mendorong adopsi yang jauh lebih luas.

Pendukung argumen ini menyatakan: Jika Google memungkinkan model berjalan pada VRAM 16GB, pengembang tidak akan berhenti di situ—mereka akan memanfaatkan sumber daya yang tersedia untuk menjalankan model enam kali lebih kompleks, memproses dataset multimodal lebih besar, dan mendukung konteks lebih panjang. Pada akhirnya, efisiensi perangkat lunak membuka permintaan yang sebelumnya tak terjangkau akibat biaya tinggi.

Namun, argumen tandingan ini sangat bergantung pada kecepatan pasar beradaptasi dan berkembang. Selama masa transisi TurboQuant dari makalah menjadi alat produksi hingga akhirnya menjadi standar industri, apakah permintaan hardware bisa tumbuh cukup cepat untuk menutup “kesenjangan” yang diciptakan oleh efisiensi?

Tidak ada yang tahu jawabannya. Pasar sedang memperhitungkan ketidakpastian ini.

Implikasi Bagi Industri AI

Lebih dari sekadar volatilitas saham penyimpanan, tren mendasar yang diungkap TurboQuant jauh lebih penting.

Medan persaingan utama perlombaan AI kini bergeser dari “meningkatkan komputasi” menjadi “memaksimalkan efisiensi.”

Jika TurboQuant terbukti efektif pada model berskala besar, hal ini dapat mendorong perubahan fundamental: inferensi long-context yang sebelumnya hanya bisa diakses laboratorium papan atas akan menjadi standar industri.

Inilah medan persaingan utama Google—mengembangkan algoritma kompresi yang hampir optimal secara matematis, mendorong batas teori informasi Shannon, bukan sekadar rekayasa brute-force. Tingkat distorsi teoretis TurboQuant hanya sekitar 2,7 kali batas bawah teori informasi.

Ini mengindikasikan terobosan serupa kemungkinan akan segera menyusul. Ini menandai kematangan arah penelitian ini secara keseluruhan.

Bagi industri penyimpanan, pertanyaan yang lebih kritis bukan lagi “Apakah ini akan berdampak pada permintaan kali ini?” melainkan: Ketika biaya inferensi AI terus menurun berkat perangkat lunak, seberapa lebar parit pertahanan hardware bisa bertahan?

Jawabannya untuk saat ini: Masih lebar, tetapi tidak cukup lebar untuk mengabaikan sinyal-sinyal ini.

Penafian:

Artikel ini diterbitkan ulang dari [TechFlow], dengan hak cipta milik penulis asli [TechFlow]. Jika Anda memiliki keberatan atas publikasi ulang ini, silakan hubungi tim Gate Learn, yang akan menindaklanjutinya sesuai prosedur yang berlaku.
Penafian: Pandangan dan opini yang diungkapkan dalam artikel ini sepenuhnya merupakan milik penulis dan tidak merupakan saran investasi.
Versi bahasa lain dari artikel ini diterjemahkan oleh tim Gate Learn. Kecuali jika secara khusus disebutkan Gate, artikel terjemahan tidak boleh disalin, didistribusikan, atau dijiplak.