Một bài báo đã khiến cổ phiếu lưu trữ giảm xuống

DeepFlowTech · 2026-03-26T01:25:52+00:00

Tác giả: Deep Tide TechFlowNgày 25 tháng 3, cổ phiếu công nghệ thị trường chứng khoán Mỹ tăng rộng rãi, chỉ số Nasdaq 100 có xu hướng tích cực, nhưng có một loại cổ phiếu đang chảy máu ngược chiều:SanDisk giảm 3,50%, Micron giảm 3,4%, Seagate giảm 2,59%, Western Digital giảm 1,63%. Toàn bộ lĩnh vực lưu trữ giống như bị ai đó tắt điện trên một bữa tiệc à.Nhanh chóng là một bài báo khoa học, hoặc chính xác hơn là sự quảng bá chính thức của Google Research đối với một bài báo khoa học.Bài báo khoa học này đã làm gìĐể hiểu được sự việc này, trước tiên cần làm rõ một khái niệm hiếm khi được công chúng chú ý trong cơ sở hạ tầng AI: KV Cache.Khi bạn trò chuyện với một mô hình ngôn ngữ lớn, mô hình sẽ không bắt đầu lại từ đầu mỗi lần để hiểu câu hỏi của bạn. Nó sẽ lưu trữ ngữ cảnh của toàn bộ cuộc trò chuyện theo một cách gọi là "cặp khóa-giá trị" (Key-Value P

DeepFlowTech

2026-03-26 01:25:52

Tác giả: DeepChao TechFlow

Ngày 25 tháng 3, cổ phiếu công nghệ Mỹ đồng loạt tăng giá, chỉ số Nasdaq 100 tăng điểm, nhưng có một loại cổ phiếu lại đang chảy máu ngược xu hướng:

SanDisk giảm 3,50%, Micron giảm 3,4%, Seagate giảm 2,59%, Western Digital giảm 1,63%. Toàn bộ ngành lưu trữ như thể vừa bị cắt điện đột ngột tại một bữa tiệc.

Kẻ thủ ác chính là một bài báo, hoặc chính xác hơn là việc Google Research chính thức quảng bá một bài báo đó.

Bài báo này rốt cuộc đã làm gì?

Để hiểu rõ chuyện này, trước tiên cần làm rõ một khái niệm ít được chú ý trong hạ tầng AI: KV Cache.

Khi bạn trò chuyện với một mô hình ngôn ngữ lớn, mô hình không hiểu câu hỏi của bạn từ đầu mỗi lần. Thay vào đó, nó sẽ lưu trữ toàn bộ ngữ cảnh cuộc hội thoại dưới dạng các cặp “chìa khóa-giá trị” (Key-Value Pair) trong bộ nhớ, gọi là KV Cache, chính là bộ nhớ làm việc ngắn hạn của mô hình.

Vấn đề là, kích thước của KV Cache tỷ lệ thuận với độ dài của cửa sổ ngữ cảnh. Khi cửa sổ ngữ cảnh đạt đến hàng triệu token, lượng GPU bộ nhớ tiêu thụ bởi KV Cache thậm chí có thể vượt quá trọng số của chính mô hình. Đối với một cụm dịch vụ suy luận phục vụ hàng loạt người dùng cùng lúc, đây là một điểm nghẽn thực tế, tiêu tốn hàng ngày tiền bạc không ngừng.

Phiên bản gốc của bài báo này lần đầu xuất hiện trên arXiv vào tháng 4 năm 2025, sẽ chính thức được công bố tại ICLR 2026. Google Research đặt tên cho nó là TurboQuant, một thuật toán lượng hóa không mất mát giúp nén KV Cache xuống còn 3 bit, giảm tiêu thụ bộ nhớ ít nhất 6 lần, không cần huấn luyện hay tinh chỉnh, có thể dùng ngay lập tức.

Con đường công nghệ cụ thể gồm hai bước:

Bước một, PolarQuant. Nó không dùng hệ tọa độ Cartesian tiêu chuẩn để biểu diễn vector, mà chuyển đổi vector sang hệ tọa độ cực — gồm “bán kính” và một tập các “góc” — từ đó đơn giản hóa căn bản hình học của không gian đa chiều, giúp việc lượng hóa sau này giảm thiểu sai lệch hơn.

Bước hai, QJL (Quantized Johnson-Lindenstrauss). Sau khi PolarQuant thực hiện nén chính, TurboQuant dùng biến đổi QJL chỉ 1 bit để hiệu chỉnh sai số còn lại không thiên vị, đảm bảo độ chính xác của ước lượng tích vô hướng — điều cực kỳ quan trọng để vận hành chính xác cơ chế chú ý của Transformer.

Kết quả: Trong các bài kiểm tra chuẩn LongBench gồm các nhiệm vụ hỏi đáp, sinh mã và tóm tắt, TurboQuant đã đạt hoặc vượt các phương pháp nền tảng tối ưu hiện tại như KIVI; trong nhiệm vụ truy tìm “kim trong bãi cỏ” (searching needle in haystack), đạt tỷ lệ truy vết hoàn hảo; trên GPU NVIDIA H100, TurboQuant 4 bit giúp tăng tốc các phép tính chú ý lên gấp 8 lần.

Các phương pháp lượng hóa truyền thống có một tội lỗi nguyên thủy: mỗi lần nén một khối dữ liệu, đều cần lưu trữ “hằng số lượng hóa” để biết cách giải nén, phần metadata này thường tiêu tốn thêm 1 đến 2 bit cho mỗi số. Dù nghe có vẻ không nhiều, nhưng trong ngữ cảnh hàng triệu token, những bits này sẽ tích tụ với tốc độ đáng thất vọng. TurboQuant loại bỏ hoàn toàn chi phí này nhờ PolarQuant với phép quay hình học và QJL với hiệu chỉnh sai số 1 bit.

Thị trường vì sao lại hoảng loạn?

Kết luận quá rõ ràng khiến người ta khó có thể bỏ qua: một mô hình cần 8 GPU H100 để xử lý ngữ cảnh hàng triệu token, về lý thuyết chỉ cần 2 GPU là đủ. Các nhà cung cấp dịch vụ suy luận có thể dùng cùng phần cứng đó để xử lý hơn 6 lần các yêu cầu dài cùng lúc.

Điều này đâm thẳng vào câu chuyện cốt lõi của ngành lưu trữ.

Trong hai năm qua, Seagate, Western Digital, Micron đều được đẩy lên đỉnh cao bởi cơn sốt AI, với lý do cốt lõi là: các mô hình lớn ngày càng “nhớ” được nhiều hơn, cửa sổ ngữ cảnh dài hơn không giới hạn về bộ nhớ, nhu cầu lưu trữ sẽ liên tục bùng nổ. Năm 2025, cổ phiếu Seagate tăng hơn 210%, năng lực sản xuất của công ty đã bán hết từ lâu vào năm 2026.

Sự xuất hiện của TurboQuant trực tiếp thách thức giả thuyết này.

Nhà phân tích công nghệ của Ngân hàng Wells Fargo, ông Andrew Rocha, bình luận rất rõ ràng: “Khi cửa sổ ngữ cảnh ngày càng lớn, dữ liệu trong KV Cache tăng theo cấp số nhân, nhu cầu bộ nhớ cũng theo đó tăng vọt. TurboQuant đang trực tiếp tấn công đường cong chi phí này… Nếu được phổ biến rộng rãi, nó sẽ khiến người ta phải đặt câu hỏi về kích cỡ bộ nhớ thực sự cần thiết.”

Tuy nhiên, ông Rocha cũng đặt ra một điều kiện tiên quyết: IF.

Phần đáng tranh luận thực sự ở đây

Liệu phản ứng của thị trường có quá mức không? Câu trả lời có khả năng là: có phần.

Thứ nhất, vấn đề gây chú ý là tốc độ tăng gấp 8 lần. Nhiều nhà phân tích chỉ ra, so sánh này dựa trên việc so sánh công nghệ mới với hệ thống cũ 32 bit không lượng hóa, chứ không phải so sánh với các hệ thống đã tối ưu hóa trong thực tế hiện nay. Có thật sự có nâng cấp, nhưng không đến mức như tiêu đề mô tả quá mức.

Thứ hai, bài báo chỉ thử nghiệm trên các mô hình nhỏ. Tất cả các đánh giá của TurboQuant đều dùng mô hình khoảng 8 tỷ tham số trở xuống. Những mô hình lớn hơn, 700 tỷ hoặc 4 nghìn tỷ tham số, mới là nơi khiến các nhà cung cấp lưu trữ phải ngày đêm lo lắng, vì KV Cache của chúng mới thực sự là con số thiên văn. Hiện tại, hiệu suất của TurboQuant trên các quy mô này vẫn còn là ẩn số.

Thứ ba, Google chưa công bố mã nguồn chính thức nào. Cho đến nay, TurboQuant chưa có mặt trong các framework như vLLM, llama.cpp, Ollama hay bất kỳ nền tảng suy luận phổ biến nào. Chính cộng đồng các nhà phát triển đã tự tái tạo lại từ các phép toán trong bài báo, và một số người đã cảnh báo rõ ràng rằng, nếu module hiệu chỉnh sai số QJL không được thực hiện đúng, kết quả đầu ra có thể biến thành rối loạn.

Tuy nhiên, điều này không có nghĩa là lo ngại của thị trường là vô căn cứ.

Đây chính là ký ức tập thể từ thời DeepSeek năm 2025 còn in đậm trong tâm trí. Sự kiện đó đã dạy cho toàn thị trường một bài học đắng lòng: các đột phá về hiệu quả thuật toán có thể trong chớp mắt làm thay đổi hoàn toàn câu chuyện về phần cứng đắt đỏ. Sau đó, mọi tiến bộ về hiệu suất từ các phòng thí nghiệm hàng đầu đều kích hoạt phản xạ có điều kiện của ngành phần cứng.

Hơn nữa, tín hiệu lần này đến từ Google Research, không phải một phòng thí nghiệm đại học vô danh. Công ty này có đủ năng lực kỹ thuật để biến các bài báo thành công cụ sản xuất, và chính họ cũng là một trong những khách hàng lớn nhất về suy luận AI toàn cầu. Một khi TurboQuant được áp dụng nội bộ, các quy trình mua sắm máy chủ của Waymo, Gemini, Google Search sẽ âm thầm thay đổi.

Kịch bản cũ lại lặp lại

Có một tranh luận kinh điển đáng xem xét nghiêm túc: nghịch lý Jevons.

Các nhà kinh tế học thế kỷ 19 nhận thấy, việc nâng cao hiệu suất của máy hơi nước không những không giảm tiêu thụ than của Anh, mà còn làm tăng mạnh lượng tiêu thụ — bởi vì nâng cao hiệu suất làm giảm chi phí sử dụng, kích thích ứng dụng quy mô lớn hơn.

Lập luận của những người ủng hộ là: Nếu Google cho phép một mô hình chạy trên 16GB RAM, các nhà phát triển sẽ không dừng lại, họ sẽ dùng phần tiết kiệm được để chạy các mô hình phức tạp gấp 6 lần, xử lý dữ liệu đa dạng hơn, hỗ trợ ngữ cảnh dài hơn. Hiệu quả phần mềm cuối cùng sẽ mở khóa những nhu cầu trước đây vì chi phí quá cao mà không thể tiếp cận.

Nhưng phản biện này có điều kiện tiên quyết: Thị trường cần thời gian để tiêu hóa và mở rộng lại. Trong khoảng thời gian từ khi TurboQuant biến từ bài báo thành công cụ sản xuất, rồi thành tiêu chuẩn ngành, liệu nhu cầu phần cứng có đủ nhanh để lấp đầy “khoảng trống” do hiệu quả mang lại?

Chẳng ai biết câu trả lời. Thị trường đang định giá cho sự không chắc chắn này.

Ý nghĩa thực sự của chuyện này đối với ngành AI

Quan tâm lớn hơn so với biến động của cổ phiếu ngành lưu trữ chính là xu hướng sâu xa mà TurboQuant hé lộ.

Cuộc đua vũ khí AI đang chuyển từ “tăng cường sức mạnh tính toán” sang “tối ưu hiệu quả cực đại”.

Nếu TurboQuant có thể chứng minh được khả năng của mình trên các mô hình quy mô lớn, sẽ mang lại một bước chuyển đổi căn bản: khả năng suy luận ngữ cảnh dài không còn là đặc quyền của các phòng thí nghiệm hàng đầu, mà trở thành tiêu chuẩn ngành mặc định.

Và điểm then chốt của cuộc đua hiệu quả này chính là lĩnh vực Google rất thành thạo, với các thuật toán nén gần như tối ưu về mặt toán học, dựa trên giới hạn của lý thuyết Shannon, chứ không phải là các kỹ thuật kỹ thuật thô sơ. Tỷ lệ sai lệch lý thuyết của TurboQuant chỉ cao hơn giới hạn lý thuyết thông tin khoảng 2,7 lần, một hằng số.

Điều này có nghĩa là, trong tương lai, sẽ không chỉ có một đột phá như vậy. Nó là biểu hiện của một toàn bộ con đường nghiên cứu đang trưởng thành.

Với ngành lưu trữ, câu hỏi tỉnh táo hơn có lẽ không phải là “lần này có ảnh hưởng đến nhu cầu không”, mà là: Khi chi phí suy luận AI liên tục giảm sâu nhờ phần mềm, thì hàng rào cạnh tranh của phần cứng còn có thể rộng đến mức nào?

Hiện tại, câu trả lời là: vẫn còn rất rộng, nhưng không đủ để phớt lờ các tín hiệu này.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.