Ngày 25 tháng 3, cổ phiếu công nghệ Mỹ đồng loạt tăng mạnh, giúp chỉ số Nasdaq 100 đóng cửa trong sắc xanh. Tuy nhiên, vẫn có một nhóm cổ phiếu đi ngược dòng và chịu thua lỗ:
Cụ thể, SanDisk giảm 3,50%, Micron giảm 3,4%, Seagate giảm 2,59% và Western Digital giảm 1,63%. Toàn bộ ngành khu lưu trữ như thể bị “cúp điện giữa tiệc”.
Nguyên nhân xuất phát từ một bài nghiên cứu—chính xác hơn là việc Google Research chính thức công bố một nghiên cứu mới.
Để hiểu rõ ý nghĩa, cần nắm được một khái niệm hạ tầng AI ít được nói đến: KV Cache.
Khi bạn tương tác với mô hình ngôn ngữ lớn, nó không khởi động lại từ đầu với mỗi câu hỏi mà lưu toàn bộ ngữ cảnh trò chuyện trong bộ nhớ dưới dạng “cặp khóa-giá trị”—chính là KV Cache, bộ nhớ làm việc ngắn hạn của mô hình.
Vấn đề nằm ở chỗ, KV Cache tăng tỷ lệ thuận với độ dài cửa sổ ngữ cảnh. Khi cửa sổ ngữ cảnh lên đến hàng triệu token, bộ nhớ GPU bị KV Cache chiếm dụng có thể vượt cả tham số mô hình. Với các cụm suy luận phục vụ nhiều người dùng đồng thời, đây là nút thắt hạ tầng thực sự và đẩy chi phí lên cao.
Phiên bản đầu tiên của bài báo xuất hiện trên arXiv vào tháng 4 năm 2025 và sẽ được xuất bản chính thức tại ICLR 2026. Google Research đặt tên thuật toán là TurboQuant—phương pháp lượng tử hóa không mất dữ liệu, nén KV Cache chỉ còn 3 bit, giảm ít nhất sáu lần dung lượng bộ nhớ sử dụng. Phương pháp này không cần huấn luyện hay tinh chỉnh, có thể áp dụng ngay.
Cách tiếp cận kỹ thuật gồm hai bước chính:
Bước 1: PolarQuant. Thay vì sử dụng hệ tọa độ Đề-các tiêu chuẩn để biểu diễn vector, phương pháp này chuyển sang hệ tọa độ cực—gồm “bán kính” và một tập hợp “góc”. Điều này đơn giản hóa hình học không gian nhiều chiều, giúp lượng tử hóa tiếp theo ít méo hơn.
Bước 2: QJL (Quantized Johnson-Lindenstrauss). Sau khi PolarQuant nén chính, TurboQuant dùng phép biến đổi QJL một bit để hiệu chỉnh sai số còn lại một cách không thiên vị, đảm bảo ước lượng tích vô hướng chính xác—yếu tố then chốt cho cơ chế attention của Transformer.
Kết quả: Trên bộ kiểm thử LongBench (gồm trả lời câu hỏi, sinh mã, tóm tắt), TurboQuant đạt hoặc vượt baseline tốt nhất hiện tại là KIVI. Ở các bài toán “tìm kim trong đống rơm”, phương pháp này đạt tỷ lệ truy xuất hoàn hảo. Trên NVIDIA H100, TurboQuant 4 bit tăng tốc logic attention lên đến 8 lần.
Các phương pháp lượng tử hóa truyền thống có điểm yếu cơ bản: mỗi khối dữ liệu nén cần thêm bộ nhớ cho “hằng số lượng tử hóa” để giải nén, tăng 1–2 bit mỗi giá trị. Với ngữ cảnh triệu token, phần này cộng dồn rất lớn. TurboQuant loại bỏ hoàn toàn chi phí này nhờ phép quay hình học của PolarQuant và hiệu chỉnh dư một bit của QJL.
Hàm ý rất rõ ràng: mô hình trước cần tám H100 để phục vụ ngữ cảnh triệu token, nay về lý thuyết chỉ cần hai. Nhà cung cấp suy luận có thể xử lý nhiều hơn sáu lần yêu cầu ngữ cảnh dài cùng lúc với cùng phần cứng.
Điều này trực tiếp làm lung lay câu chuyện cốt lõi của ngành khu lưu trữ.
Hai năm trở lại đây, Seagate, Western Digital và Micron hưởng lợi nhờ làn sóng đầu tư AI vì một lý do: Khi các mô hình lớn “ghi nhớ” nhiều hơn, nhu cầu bộ nhớ với cửa sổ ngữ cảnh dài tưởng như vô hạn, khiến nhu cầu khu lưu trữ được dự báo bùng nổ. Cổ phiếu Seagate tăng hơn 210% trong năm 2025, công suất sản xuất năm 2026 đã bán hết.
TurboQuant xuất hiện đã thách thức trực tiếp tiền đề này.
Chuyên gia công nghệ Wells Fargo, Andrew Rocha, nhận định: “Khi cửa sổ ngữ cảnh lớn, dữ liệu trong KV Cache tăng bùng nổ, kéo theo nhu cầu bộ nhớ. TurboQuant tấn công trực tiếp đường cong chi phí này… Nếu được áp dụng rộng rãi, nó đặt dấu hỏi căn bản cho việc thực sự cần bao nhiêu dung lượng bộ nhớ.”
Nhưng Rocha cũng nhấn mạnh một điều kiện quan trọng: NẾU.
Liệu thị trường có phản ứng quá mức? Rất có thể—ít nhất ở một phần nào đó.
Thứ nhất, tiêu đề “tăng tốc 8 lần” gây hiểu lầm. Nhiều nhà phân tích chỉ ra mức tăng tốc 8 lần so với hệ thống 32 bit chưa lượng tử hóa cũ, không phải các hệ thống tối ưu hiện nay. Lợi ích thực tế có thật nhưng không kịch tính như tiêu đề.
Thứ hai, bài báo chỉ kiểm thử trên mô hình nhỏ. Toàn bộ đánh giá TurboQuant dùng mô hình tối đa 8 tỷ tham số. Điều mà các nhà cung cấp khu lưu trữ lo ngại là mô hình 70 tỷ hay 400 tỷ tham số, nơi KV Cache thực sự khổng lồ. Hiệu quả TurboQuant ở quy mô này vẫn chưa được kiểm chứng.
Thứ ba, Google chưa công bố mã nguồn chính thức. Đến nay, TurboQuant chưa xuất hiện trong vLLM, llama.cpp, Ollama hay bất kỳ framework suy luận phổ biến nào. Các nhà phát triển cộng đồng đã thử nghiệm bản sơ khai dựa trên lý thuyết bài báo, và một người tái tạo sớm lưu ý nếu hiệu chỉnh QJL không chuẩn, kết quả có thể không đọc được.
Dù vậy, không có nghĩa thị trường lo lắng vô căn cứ.
Đây là phản xạ tập thể từ sự kiện DeepSeek năm 2025. Sự kiện đó cho thấy: Chỉ cần một đột phá hiệu quả thuật toán là có thể làm lung lay ngay lập tức câu chuyện phần cứng đắt đỏ. Từ đó, bất kỳ đột phá hiệu quả nào từ phòng thí nghiệm AI hàng đầu đều khiến cổ phiếu phần cứng phản ứng mạnh.
Hơn nữa, tín hiệu này đến từ Google Research—không phải một phòng nghiên cứu ít tên tuổi. Google đủ năng lực kỹ thuật biến bài báo thành công cụ thực tế, đồng thời là một trong những khách hàng suy luận AI lớn nhất thế giới. Khi TurboQuant được triển khai nội bộ, nó có thể âm thầm thay đổi chiến lược mua máy chủ cho Waymo, Gemini và Google Search.
Có một tranh luận kinh điển: Nghịch lý Jevons.
Nhà kinh tế học thế kỷ XIX William Jevons chỉ ra rằng cải tiến hiệu suất động cơ hơi nước không làm giảm tiêu thụ than ở Anh—mà còn tăng lên mạnh mẽ. Hiệu quả cao hơn khiến ứng dụng rộng rãi hơn.
Những người ủng hộ cho rằng: Nếu Google giúp mô hình chạy trên 16GB VRAM, nhà phát triển sẽ tận dụng tài nguyên dư để chạy mô hình phức tạp hơn sáu lần, xử lý dữ liệu đa phương tiện lớn hơn, hỗ trợ ngữ cảnh dài hơn. Cuối cùng, hiệu quả phần mềm sẽ kích hoạt nhu cầu từng bị giới hạn vì chi phí cao.
Tuy nhiên, phản biện này phụ thuộc vào việc thị trường có đủ thời gian thích nghi và mở rộng. Trong giai đoạn TurboQuant chuyển từ bài báo sang công cụ thực tế rồi thành tiêu chuẩn ngành, liệu nhu cầu phần cứng có tăng kịp để lấp “khoảng trống” do hiệu quả cao tạo ra?
Không ai biết chắc. Thị trường đang định giá cho sự bất định này.
Điều quan trọng hơn biến động cổ phiếu khu lưu trữ là xu hướng sâu xa mà TurboQuant hé lộ.
Cuộc đua AI đang chuyển từ “mở rộng sức mạnh tính toán” sang “tối ưu hiệu quả”.
Nếu TurboQuant chứng minh được hiệu năng trên mô hình lớn, nó có thể tạo ra một bước ngoặt: suy luận ngữ cảnh dài không còn là đặc quyền của phòng thí nghiệm lớn mà trở thành tiêu chuẩn ngành.
Cuộc đua hiệu quả là thế mạnh của Google—phát triển thuật toán nén gần tối ưu về mặt toán học, đẩy giới hạn lý thuyết thông tin Shannon, không chỉ dựa vào kỹ thuật brute-force. Tỷ lệ méo lý thuyết của TurboQuant chỉ khoảng 2,7 lần giới hạn thấp nhất về mặt thông tin.
Điều này cho thấy nhiều đột phá tương tự sẽ tiếp nối. Đây là dấu mốc trưởng thành của cả một hướng nghiên cứu.
Với ngành khu lưu trữ, câu hỏi không còn là “Lần này nhu cầu có bị ảnh hưởng không?” mà là: Khi chi phí suy luận AI liên tục giảm nhờ phần mềm, liệu lợi thế phần cứng sẽ rộng được bao lâu?
Câu trả lời hiện tại: Vẫn còn rộng, nhưng không đủ rộng để những tín hiệu này bị bỏ qua.
Bài viết này được đăng lại từ [TechFlow], bản quyền thuộc về tác giả gốc [TechFlow]. Nếu bạn có thắc mắc về việc đăng lại này, vui lòng liên hệ đội ngũ Gate Learn, chúng tôi sẽ xử lý theo quy trình liên quan.
Tuyên bố từ chối trách nhiệm: Quan điểm và ý kiến trong bài viết này là của riêng tác giả và không cấu thành lời khuyên đầu tư.
Các phiên bản ngôn ngữ khác của bài viết này do đội ngũ Gate Learn dịch. Trừ khi có tham chiếu cụ thể đến Gate, các bài dịch không được phép sao chép, phân phối hoặc đạo văn.





