Phá vỡ cổ phiếu lưu trữ 900 tỷ USD của Google AI bài báo bị cáo buộc gian lận thí nghiệm

Tác giả: Deep潮 TechFlow

Bài báo của Google với tựa đề “Nén dung lượng bộ nhớ AI xuống còn 1/6” đã gây ra sự kiện mất hơn 90 tỷ USD giá trị thị trường của các cổ phiếu chip lưu trữ toàn cầu như Micron, SanDisk vào tuần trước.

Tuy nhiên, chỉ hai ngày sau khi bài báo được phát hành, đối tượng so sánh mà thuật toán “đè bẹp”—bác sĩ hậu của ETH Zurich, Gao Jianyang, đã đăng thư công khai dài hàng nghìn chữ, cáo buộc nhóm của Google trong các thí nghiệm đã dùng script Python chạy trên CPU đơn nhân để thử nghiệm đối thủ, còn tự thử nghiệm bằng GPU A100, và đã được thông báo về vấn đề này trước khi gửi bài nhưng vẫn từ chối sửa chữa. Lượt đọc trên Zhihu nhanh chóng vượt qua 4 triệu, tài khoản chính thức của Stanford NLP đã chia sẻ lại, khiến giới học thuật và thị trường cùng chấn động.

(Tham khảo: Một bài báo khiến cổ phiếu lưu trữ sụt giảm mạnh)

Vấn đề cốt lõi của tranh cãi này không phức tạp: Một bài báo do chính Google quảng bá quy mô lớn, trực tiếp gây hoảng loạn bán tháo trong ngành chip toàn cầu, có hệ thống xuyên tạc một công trình đã công bố trước đó, và qua việc cố ý tạo ra các thí nghiệm không công bằng, đã xây dựng một câu chuyện về hiệu năng ảo?

Google đã làm gì với TurboQuant: Ép mỏng “bản nháp” của AI xuống còn 1/6

Trong quá trình tạo ra câu trả lời, các mô hình ngôn ngữ lớn cần vừa viết vừa quay lại xem lại các nội dung đã tính toán trước đó. Các kết quả trung gian này tạm thời được lưu trong bộ nhớ GPU, trong ngành gọi là “KV Cache” (bộ nhớ khóa-giá trị). Thời gian dài hơn của cuộc đối thoại, “bản nháp” này càng dày, tiêu thụ bộ nhớ GPU càng lớn, chi phí cũng cao hơn.

Thuật toán TurboQuant do nhóm nghiên cứu của Google phát triển, điểm bán hàng chính là nén “bản nháp” này xuống còn 1/6 so với ban đầu, đồng thời tuyên bố không mất độ chính xác, tăng tốc suy luận tối đa 8 lần. Bài báo lần đầu tiên được đăng trên nền tảng arXiv vào tháng 4 năm 2025, sau đó được chấp nhận tại hội nghị hàng đầu về AI ICLR 2026 vào tháng 1 năm 2026, và ngày 24 tháng 3 được Google chính thức quảng bá lại trên blog.

Về mặt kỹ thuật, ý tưởng của TurboQuant có thể hiểu đơn giản là: trước tiên dùng một phép biến đổi toán học để “rửa sạch” dữ liệu rối rắm thành dạng đồng nhất, rồi dùng bảng nén tối ưu đã tính sẵn để nén từng phần, cuối cùng dùng một cơ chế sửa lỗi 1 bit để điều chỉnh sai lệch tính toán do nén gây ra. Các bản thực thi độc lập của cộng đồng đã xác nhận hiệu quả nén gần như chính xác, và đóng góp toán học của thuật toán là có thật.

Vấn đề tranh cãi không phải là TurboQuant có thể dùng hay không, mà là Google đã làm gì để chứng minh rằng nó “vượt xa đối thủ”.

Thư công khai của Gao Jianyang: Ba cáo buộc, đều chạm đúng điểm then chốt

Vào lúc 10 giờ tối ngày 27 tháng 3, Gao Jianyang đã đăng bài dài trên Zhihu, đồng thời gửi bình luận chính thức trên nền tảng phản biện của ICLR là OpenReview. Gao Jianyang là tác giả chính của thuật toán RaBitQ, được công bố tại hội nghị hàng đầu về cơ sở dữ liệu SIGMOD năm 2024, giải quyết cùng loại vấn đề—nén hiệu quả vector chiều cao.

Các cáo buộc của anh chia thành ba điểm, mỗi điểm đều có bằng chứng qua email và dòng thời gian rõ ràng.

Cáo buộc thứ nhất: Dùng phương pháp cốt lõi của người khác mà không đề cập.

Cốt lõi kỹ thuật của TurboQuant và RaBitQ đều có một bước chung quan trọng: trước khi nén dữ liệu, thực hiện một phép “xoay ngẫu nhiên” dữ liệu đó. Mục đích của bước này là biến đổi dữ liệu phân bố không đều ban đầu thành phân bố đều có thể dự đoán được, từ đó giảm đáng kể độ khó nén. Đây là phần cốt lõi, gần như là điểm tương đồng nhất của hai thuật toán.

Chính tác giả của TurboQuant trong phản hồi bình luận cũng thừa nhận điều này, nhưng trong toàn bộ bài báo chưa từng đề cập rõ ràng mối liên hệ giữa phương pháp này và RaBitQ. Thêm vào đó, bối cảnh quan trọng là: tác giả thứ hai của TurboQuant, Majid Daliri, vào tháng 1 năm 2025 đã chủ động liên hệ với nhóm của Gao Jianyang, yêu cầu giúp đỡ chỉnh sửa phiên bản Python dựa trên mã nguồn của RaBitQ. Trong email, mô tả chi tiết các bước tái tạo và lỗi gặp phải—nói cách khác, nhóm TurboQuant biết rõ các chi tiết kỹ thuật của RaBitQ.

Một bình luận độc lập từ một reviewer ẩn danh của ICLR cũng chỉ ra rằng cả hai đều sử dụng cùng một kỹ thuật, yêu cầu thảo luận đầy đủ. Nhưng trong bản cuối cùng của bài báo, nhóm TurboQuant không bổ sung thảo luận, mà còn chuyển phần mô tả về RaBitQ (đã không còn đầy đủ) vào phần phụ lục.

Cáo buộc thứ hai: Tuyên bố “kém tối ưu” của đối phương mà không có căn cứ.

Bài báo TurboQuant đã gán nhãn “kém tối ưu” (suboptimal) cho RaBitQ, lý do là phân tích toán học của RaBitQ “có phần sơ sài”. Tuy nhiên, Gao Jianyang chỉ ra rằng bản mở rộng của RaBitQ đã chứng minh chặt chẽ rằng sai số nén của nó đạt tới giới hạn tối ưu về mặt toán học—kết luận này đã được công bố tại hội nghị hàng đầu về khoa học máy tính lý thuyết.

Vào tháng 5 năm 2025, nhóm của Gao Jianyang đã qua nhiều vòng email giải thích rõ ràng về tính tối ưu của lý thuyết RaBitQ. Người thứ hai của TurboQuant, Daliri, xác nhận đã thông báo cho toàn bộ tác giả. Nhưng cuối cùng, bài báo vẫn giữ nguyên mô tả “kém tối ưu” mà không đưa ra bất kỳ luận cứ phản biện nào.

Cáo buộc thứ ba: Trong so sánh thí nghiệm, “tay trái trói người, tay phải cầm dao”.

Đây là điểm gây tổn thương nhất trong toàn bài. Gao Jianyang chỉ ra rằng, trong các thí nghiệm so sánh tốc độ, bài báo TurboQuant đã chồng chất hai điều kiện không công bằng:

Thứ nhất, RaBitQ chính thức cung cấp mã C++ đã tối ưu hóa (hỗ trợ đa luồng mặc định), nhưng nhóm TurboQuant không dùng, mà tự dịch sang Python để thử nghiệm RaBitQ. Thứ hai, khi thử nghiệm RaBitQ, họ dùng CPU đơn nhân và tắt đa luồng, còn TurboQuant dùng GPU NVIDIA A100.

Kết quả của hai điều kiện này là: người đọc thấy kết luận “RaBitQ chậm hơn TurboQuant vài nhiều lần”, nhưng không biết rằng điều kiện tiên quyết của kết quả này là nhóm Google đã trói tay đối thủ rồi mới thi đấu. Các điều kiện thử nghiệm này không được tiết lộ đầy đủ trong bài báo.

Phản hồi của Google: “Xoay ngẫu nhiên là kỹ thuật phổ biến, không thể trích dẫn tất cả”

Theo Gao Jianyang tiết lộ, trong email hồi đáp tháng 3 năm 2026, nhóm TurboQuant nói rằng: “Việc sử dụng xoay ngẫu nhiên và biến đổi Johnson-Lindenstrauss đã trở thành tiêu chuẩn trong lĩnh vực này, chúng tôi không thể trích dẫn tất cả các bài báo đã dùng các phương pháp này.”

Nhóm Gao Jianyang cho rằng đây là sự đánh tráo khái niệm: vấn đề không phải là có nên trích dẫn tất cả các bài đã dùng xoay ngẫu nhiên hay không, mà là RaBitQ là công trình đầu tiên kết hợp phương pháp này với nén vector và chứng minh tính tối ưu của nó trong cùng một thiết lập vấn đề. Bài báo TurboQuant đáng lẽ phải mô tả chính xác mối liên hệ này.

Tài khoản chính thức của nhóm NLP Stanford đã chia sẻ lại tuyên bố của Gao Jianyang. Nhóm của anh đã đăng bình luận công khai trên nền tảng OpenReview của ICLR, gửi đơn khiếu nại chính thức tới chủ tọa và ủy ban đạo đức của hội nghị, và sẽ tiếp tục đăng tải báo cáo kỹ thuật chi tiết trên arXiv.

Nhà phân tích độc lập Dario Salvati đưa ra nhận xét trung lập: TurboQuant thực sự có đóng góp về mặt toán học, nhưng mối liên hệ của nó với RaBitQ còn chặt chẽ hơn nhiều so với cách bài báo trình bày.

Giá trị thị trường mất 90 tỷ USD: Tranh cãi về bài báo cộng với hoảng loạn thị trường

Thời điểm xảy ra tranh cãi học thuật này rất nhạy cảm. Sau khi Google đăng bài về TurboQuant vào ngày 24 tháng 3 trên blog chính thức, ngành chip lưu trữ toàn cầu bắt đầu bán tháo dữ dội. Theo CNBC và các phương tiện khác, công ty Micron liên tục giảm giá trong sáu ngày giao dịch liên tiếp, tổng giảm hơn 20%; SanDisk giảm 11% trong ngày; SK Hynix giảm khoảng 6%, Samsung Electronics giảm gần 5%, Kioxia của Nhật giảm khoảng 6%. Lý do hoảng loạn của thị trường rất đơn giản: phần mềm nén có thể giảm nhu cầu bộ nhớ cho suy luận AI gấp 6 lần, triển vọng của các chip lưu trữ sẽ bị điều chỉnh giảm theo cấu trúc.

Các nhà phân tích của Morgan Stanley, Joseph Moore, ngày 26 tháng 3 đã phản bác logic này, giữ nguyên xếp hạng “tăng tỷ lệ” cho Micron và SanDisk. Moore chỉ ra rằng TurboQuant chỉ nén bộ đệm KV Cache đặc thù, chứ không phải toàn bộ bộ nhớ, và gọi đó là “cải tiến năng suất bình thường”. Các nhà phân tích của Wells Fargo, như Andrew Rocha, cũng dựa trên nghịch lý Jensen để cho rằng, sau khi nâng cao hiệu quả và giảm chi phí, có thể kích thích triển khai AI quy mô lớn hơn, cuối cùng làm tăng nhu cầu bộ nhớ.

Bài báo cũ, đóng gói mới: Rủi ro trong chuỗi truyền tải từ nghiên cứu AI đến câu chuyện thị trường

Theo phân tích của blogger công nghệ Ben Pouladian, bài báo TurboQuant đã được công bố từ tháng 4 năm 2025, không phải nghiên cứu mới. Ngày 24 tháng 3, Google đã tái bản và quảng bá lại trên blog chính thức, nhưng thị trường lại định giá như thể đó là đột phá mới hoàn toàn. Chiến lược “bài báo cũ, phát hành mới” này, cộng với các sai lệch trong thí nghiệm có thể tồn tại trong bài, phản ánh rủi ro hệ thống trong chuỗi truyền tải từ nghiên cứu học thuật về AI đến câu chuyện thị trường.

Đối với nhà đầu tư hạ tầng AI, khi một bài báo tuyên bố đạt “nhiều cấp độ” về hiệu năng, điều đầu tiên cần hỏi là điều kiện so sánh có công bằng hay không.

Nhóm Gao Jianyang đã rõ ràng khẳng định sẽ tiếp tục thúc đẩy giải quyết vấn đề chính thức. Phía Google vẫn chưa có phản hồi chính thức về các cáo buộc trong thư công khai này.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.26KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.26KNgười nắm giữ:0
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Ghim