Gate Learn

Một bài nghiên cứu đã khiến giá các token khu lưu trữ giảm.

Trung cấp

AI AI

Cập nhật lần cuối 2026-03-30 09:21:25

Thời gian đọc: 7m

Bài viết này phân tích những giới hạn của việc so sánh chuẩn, quy mô mô hình và triển khai kỹ thuật. Bài viết giới thiệu cú sốc hiệu suất DeepSeek và nghịch lý Jevons để làm rõ cách mà đổi mới về hiệu suất không chỉ siết chặt nhu cầu phần cứng trong ngắn hạn mà còn tạo ra nhiều cơ hội mở rộng ứng dụng về dài hạn.

Ngày 25 tháng 3, cổ phiếu công nghệ Mỹ đồng loạt tăng mạnh, giúp chỉ số Nasdaq 100 đóng cửa trong sắc xanh. Tuy nhiên, vẫn có một nhóm cổ phiếu đi ngược dòng và chịu thua lỗ:

Cụ thể, SanDisk giảm 3,50%, Micron giảm 3,4%, Seagate giảm 2,59% và Western Digital giảm 1,63%. Toàn bộ ngành khu lưu trữ như thể bị “cúp điện giữa tiệc”.

Nguyên nhân xuất phát từ một bài nghiên cứu—chính xác hơn là việc Google Research chính thức công bố một nghiên cứu mới.

Bài báo này thực sự đã làm gì?

Để hiểu rõ ý nghĩa, cần nắm được một khái niệm hạ tầng AI ít được nói đến: KV Cache.

Khi bạn tương tác với mô hình ngôn ngữ lớn, nó không khởi động lại từ đầu với mỗi câu hỏi mà lưu toàn bộ ngữ cảnh trò chuyện trong bộ nhớ dưới dạng “cặp khóa-giá trị”—chính là KV Cache, bộ nhớ làm việc ngắn hạn của mô hình.

Vấn đề nằm ở chỗ, KV Cache tăng tỷ lệ thuận với độ dài cửa sổ ngữ cảnh. Khi cửa sổ ngữ cảnh lên đến hàng triệu token, bộ nhớ GPU bị KV Cache chiếm dụng có thể vượt cả tham số mô hình. Với các cụm suy luận phục vụ nhiều người dùng đồng thời, đây là nút thắt hạ tầng thực sự và đẩy chi phí lên cao.

Phiên bản đầu tiên của bài báo xuất hiện trên arXiv vào tháng 4 năm 2025 và sẽ được xuất bản chính thức tại ICLR 2026. Google Research đặt tên thuật toán là TurboQuant—phương pháp lượng tử hóa không mất dữ liệu, nén KV Cache chỉ còn 3 bit, giảm ít nhất sáu lần dung lượng bộ nhớ sử dụng. Phương pháp này không cần huấn luyện hay tinh chỉnh, có thể áp dụng ngay.

Cách tiếp cận kỹ thuật gồm hai bước chính:

Bước 1: PolarQuant. Thay vì sử dụng hệ tọa độ Đề-các tiêu chuẩn để biểu diễn vector, phương pháp này chuyển sang hệ tọa độ cực—gồm “bán kính” và một tập hợp “góc”. Điều này đơn giản hóa hình học không gian nhiều chiều, giúp lượng tử hóa tiếp theo ít méo hơn.

Bước 2: QJL (Quantized Johnson-Lindenstrauss). Sau khi PolarQuant nén chính, TurboQuant dùng phép biến đổi QJL một bit để hiệu chỉnh sai số còn lại một cách không thiên vị, đảm bảo ước lượng tích vô hướng chính xác—yếu tố then chốt cho cơ chế attention của Transformer.

Kết quả: Trên bộ kiểm thử LongBench (gồm trả lời câu hỏi, sinh mã, tóm tắt), TurboQuant đạt hoặc vượt baseline tốt nhất hiện tại là KIVI. Ở các bài toán “tìm kim trong đống rơm”, phương pháp này đạt tỷ lệ truy xuất hoàn hảo. Trên NVIDIA H100, TurboQuant 4 bit tăng tốc logic attention lên đến 8 lần.

Các phương pháp lượng tử hóa truyền thống có điểm yếu cơ bản: mỗi khối dữ liệu nén cần thêm bộ nhớ cho “hằng số lượng tử hóa” để giải nén, tăng 1–2 bit mỗi giá trị. Với ngữ cảnh triệu token, phần này cộng dồn rất lớn. TurboQuant loại bỏ hoàn toàn chi phí này nhờ phép quay hình học của PolarQuant và hiệu chỉnh dư một bit của QJL.

Vì sao thị trường hoảng loạn?

Hàm ý rất rõ ràng: mô hình trước cần tám H100 để phục vụ ngữ cảnh triệu token, nay về lý thuyết chỉ cần hai. Nhà cung cấp suy luận có thể xử lý nhiều hơn sáu lần yêu cầu ngữ cảnh dài cùng lúc với cùng phần cứng.

Điều này trực tiếp làm lung lay câu chuyện cốt lõi của ngành khu lưu trữ.

Hai năm trở lại đây, Seagate, Western Digital và Micron hưởng lợi nhờ làn sóng đầu tư AI vì một lý do: Khi các mô hình lớn “ghi nhớ” nhiều hơn, nhu cầu bộ nhớ với cửa sổ ngữ cảnh dài tưởng như vô hạn, khiến nhu cầu khu lưu trữ được dự báo bùng nổ. Cổ phiếu Seagate tăng hơn 210% trong năm 2025, công suất sản xuất năm 2026 đã bán hết.

TurboQuant xuất hiện đã thách thức trực tiếp tiền đề này.

Chuyên gia công nghệ Wells Fargo, Andrew Rocha, nhận định: “Khi cửa sổ ngữ cảnh lớn, dữ liệu trong KV Cache tăng bùng nổ, kéo theo nhu cầu bộ nhớ. TurboQuant tấn công trực tiếp đường cong chi phí này… Nếu được áp dụng rộng rãi, nó đặt dấu hỏi căn bản cho việc thực sự cần bao nhiêu dung lượng bộ nhớ.”

Nhưng Rocha cũng nhấn mạnh một điều kiện quan trọng: NẾU.

Điều gì thực sự đáng tranh luận?

Liệu thị trường có phản ứng quá mức? Rất có thể—ít nhất ở một phần nào đó.

Thứ nhất, tiêu đề “tăng tốc 8 lần” gây hiểu lầm. Nhiều nhà phân tích chỉ ra mức tăng tốc 8 lần so với hệ thống 32 bit chưa lượng tử hóa cũ, không phải các hệ thống tối ưu hiện nay. Lợi ích thực tế có thật nhưng không kịch tính như tiêu đề.

Thứ hai, bài báo chỉ kiểm thử trên mô hình nhỏ. Toàn bộ đánh giá TurboQuant dùng mô hình tối đa 8 tỷ tham số. Điều mà các nhà cung cấp khu lưu trữ lo ngại là mô hình 70 tỷ hay 400 tỷ tham số, nơi KV Cache thực sự khổng lồ. Hiệu quả TurboQuant ở quy mô này vẫn chưa được kiểm chứng.

Thứ ba, Google chưa công bố mã nguồn chính thức. Đến nay, TurboQuant chưa xuất hiện trong vLLM, llama.cpp, Ollama hay bất kỳ framework suy luận phổ biến nào. Các nhà phát triển cộng đồng đã thử nghiệm bản sơ khai dựa trên lý thuyết bài báo, và một người tái tạo sớm lưu ý nếu hiệu chỉnh QJL không chuẩn, kết quả có thể không đọc được.

Dù vậy, không có nghĩa thị trường lo lắng vô căn cứ.

Đây là phản xạ tập thể từ sự kiện DeepSeek năm 2025. Sự kiện đó cho thấy: Chỉ cần một đột phá hiệu quả thuật toán là có thể làm lung lay ngay lập tức câu chuyện phần cứng đắt đỏ. Từ đó, bất kỳ đột phá hiệu quả nào từ phòng thí nghiệm AI hàng đầu đều khiến cổ phiếu phần cứng phản ứng mạnh.

Hơn nữa, tín hiệu này đến từ Google Research—không phải một phòng nghiên cứu ít tên tuổi. Google đủ năng lực kỹ thuật biến bài báo thành công cụ thực tế, đồng thời là một trong những khách hàng suy luận AI lớn nhất thế giới. Khi TurboQuant được triển khai nội bộ, nó có thể âm thầm thay đổi chiến lược mua máy chủ cho Waymo, Gemini và Google Search.

Mô hình kinh điển lặp lại

Có một tranh luận kinh điển: Nghịch lý Jevons.

Nhà kinh tế học thế kỷ XIX William Jevons chỉ ra rằng cải tiến hiệu suất động cơ hơi nước không làm giảm tiêu thụ than ở Anh—mà còn tăng lên mạnh mẽ. Hiệu quả cao hơn khiến ứng dụng rộng rãi hơn.

Những người ủng hộ cho rằng: Nếu Google giúp mô hình chạy trên 16GB VRAM, nhà phát triển sẽ tận dụng tài nguyên dư để chạy mô hình phức tạp hơn sáu lần, xử lý dữ liệu đa phương tiện lớn hơn, hỗ trợ ngữ cảnh dài hơn. Cuối cùng, hiệu quả phần mềm sẽ kích hoạt nhu cầu từng bị giới hạn vì chi phí cao.

Tuy nhiên, phản biện này phụ thuộc vào việc thị trường có đủ thời gian thích nghi và mở rộng. Trong giai đoạn TurboQuant chuyển từ bài báo sang công cụ thực tế rồi thành tiêu chuẩn ngành, liệu nhu cầu phần cứng có tăng kịp để lấp “khoảng trống” do hiệu quả cao tạo ra?

Không ai biết chắc. Thị trường đang định giá cho sự bất định này.

Ý nghĩa với ngành AI

Điều quan trọng hơn biến động cổ phiếu khu lưu trữ là xu hướng sâu xa mà TurboQuant hé lộ.

Cuộc đua AI đang chuyển từ “mở rộng sức mạnh tính toán” sang “tối ưu hiệu quả”.

Nếu TurboQuant chứng minh được hiệu năng trên mô hình lớn, nó có thể tạo ra một bước ngoặt: suy luận ngữ cảnh dài không còn là đặc quyền của phòng thí nghiệm lớn mà trở thành tiêu chuẩn ngành.

Cuộc đua hiệu quả là thế mạnh của Google—phát triển thuật toán nén gần tối ưu về mặt toán học, đẩy giới hạn lý thuyết thông tin Shannon, không chỉ dựa vào kỹ thuật brute-force. Tỷ lệ méo lý thuyết của TurboQuant chỉ khoảng 2,7 lần giới hạn thấp nhất về mặt thông tin.

Điều này cho thấy nhiều đột phá tương tự sẽ tiếp nối. Đây là dấu mốc trưởng thành của cả một hướng nghiên cứu.

Với ngành khu lưu trữ, câu hỏi không còn là “Lần này nhu cầu có bị ảnh hưởng không?” mà là: Khi chi phí suy luận AI liên tục giảm nhờ phần mềm, liệu lợi thế phần cứng sẽ rộng được bao lâu?

Câu trả lời hiện tại: Vẫn còn rộng, nhưng không đủ rộng để những tín hiệu này bị bỏ qua.

Tuyên bố từ chối trách nhiệm:

Bài viết này được đăng lại từ [TechFlow], bản quyền thuộc về tác giả gốc [TechFlow]. Nếu bạn có thắc mắc về việc đăng lại này, vui lòng liên hệ đội ngũ Gate Learn, chúng tôi sẽ xử lý theo quy trình liên quan.
Tuyên bố từ chối trách nhiệm: Quan điểm và ý kiến trong bài viết này là của riêng tác giả và không cấu thành lời khuyên đầu tư.
Các phiên bản ngôn ngữ khác của bài viết này do đội ngũ Gate Learn dịch. Trừ khi có tham chiếu cụ thể đến Gate, các bài dịch không được phép sao chép, phân phối hoặc đạo văn.

Mời người khác bỏ phiếu

Nội dung

Bài báo này thực sự đã làm gì?

Vì sao thị trường hoảng loạn?

Điều gì thực sự đáng tranh luận?

Mô hình kinh điển lặp lại

Ý nghĩa với ngành AI

Lịch Tiền điện tử

Mở khóa Token

Wormhole sẽ mở khóa 1.280.000.000 W token vào ngày 3 tháng 4, chiếm khoảng 28,39% nguồn cung đang lưu hành hiện tại.

-7.32%

2026-04-02

Mở Khóa Token

Mạng lưới Pyth sẽ mở khóa 2.130.000.000 token PYTH vào ngày 19 tháng 5, chiếm khoảng 36,96% tổng nguồn cung hiện đang lưu hành.

PYTH

2.25%

2026-05-18

Mở khóa Token

Pump.fun sẽ mở khóa 82.500.000.000 token PUMP vào ngày 12 tháng 7, chiếm khoảng 23,31% tổng nguồn cung đang lưu hành.

PUMP

-3.37%

2026-07-11

Mở khóa Token

Succinct sẽ mở khóa 208,330,000 PROVE token vào ngày 5 tháng 8, chiếm khoảng 104,17% tổng cung đang lưu hành.

PROVE

2026-08-04

Bài viết liên quan

Trung cấp

Fartcoin là gì? Những thông tin quan trọng về FARTCOIN bạn không nên bỏ lỡ

Fartcoin (FARTCOIN) là đồng meme nổi bật ứng dụng trí tuệ nhân tạo trong hệ sinh thái Solana.

2026-03-24 11:55:59

Người mới bắt đầu

Tất cả những điều bạn cần biết về GT-Giao thức

GT Protocol là một trong những sản phẩm AI được quảng cáo nhiều nhất của năm 2024, sử dụng công nghệ AI tiên tiến để tạo ra các công cụ giao dịch AI độc đáo. Nó có thể được sử dụng cho quản lý danh mục AI, giao dịch AI và các phương pháp đầu tư trong thị trường CeFi, DeFi và NFT, giúp mọi người dễ dàng khám phá và đầu tư vào các cơ hội Web3 khác nhau. Nó đã thu hút hàng trăm triệu người dùng tham gia.

2026-03-24 11:55:16

Trung cấp

Sentient: Kết hợp những mô hình AI Mở và Đóng tốt nhất

Mô tả Meta: Sentient là một nền tảng cho các mô hình Clopen AI, kết hợp tốt nhất của cả các mô hình mở và đóng. Nền tảng này có hai thành phần chính: OML và Sentient Protocol.

2026-03-24 11:55:37

Người mới bắt đầu

Crypto Narratives là gì? Các Narratives hàng đầu cho năm 2025 (CẬP NHẬT)

Memecoins, các mã token liquid restaking, các sản phẩm phái sinh staking liquid, tính linh hoạt của blockchain, Layer 1s, Layer 2s (Optimistic rollups và zero knowledge rollups), BRC-20, DePIN, các bot giao dịch crypto trên Telegram, thị trường dự đoán và RWAs là những câu chuyện đáng chú ý trong năm 2024.

2026-03-24 11:55:41

Nâng cao

Tars AI là gì? Khám phá Tương lai của AI và tích hợp Web3

Tìm hiểu cách Tars AI kết nối khoảng cách giữa AI và Web3, cung cấp các giải pháp có khả năng mở rộng và các công cụ đổi mới cho các ứng dụng phi tập trung. Tìm hiểu về các tính năng chính, lợi ích và cách nó hoạt động.

2026-03-24 11:55:14

Trung cấp

The Airdrop Meta: a Lull in Performance or an Obituary?

Khám phá sự tiến hóa của airdrop và hiệu suất của chúng trong nhiều ngành công nghiệp và hệ sinh thái kể từ khi Friendtech ra mắt hệ thống điểm.

2026-03-24 11:55:13