Anthropic đã tạo ra một AI "quá nguy hiểm" và sau đó quyết định không phát hành nó

Tác giả: Shenchao TechFlow

Vào ngày 7 tháng 4, Anthropic đã làm một việc mà ngành AI chưa từng có trước đây: chính thức công bố một mô hình, rồi nói với toàn thế giới rằng các bạn không dùng được.

Mô hình đó được gọi là Claude Mythos Preview. Nó không phải chatbot, cũng không phải trợ lý viết mã; theo chính lời của Anthropic, nó là một “cỗ máy phát hiện lỗ hổng”. Trong vài tuần qua, nó đã tự chủ tìm thấy hàng nghìn lỗ hổng zero-day, bao phủ tất cả các hệ điều hành phổ biến và toàn bộ các trình duyệt phổ biến. Một số lỗ hổng đã tồn tại trong quá trình rà soát mã và kiểm thử tự động của con người suốt hai mươi năm.

Bug lâu đời nhất—ẩn trong OpenBSD, vốn nổi tiếng về tính an toàn—đã 27 tuổi.

Anthropic không đưa Mythos lên API, cũng không mở cho người dùng phổ thông. Họ chọn một lối đi chưa từng có: thành lập một liên minh các tập đoàn công nghệ có tên “Project Glasswing”, chỉ giới hạn việc cung cấp mô hình cho 12 đối tác cốt lõi như Amazon, Apple, Microsoft, Google, NVIDIA, CrowdStrike, Palo Alto Networks… cùng với khoảng 100Mổ chức duy trì các hạ tầng then chốt. Anthropic cam kết hạn mức sử dụng lên tới 100 triệu USD, và 4 triệu USD quyên góp trực tiếp cho các tổ chức an ninh mã nguồn mở.

Đây là lần đầu tiên trong ngành AI xuất hiện tình huống kiểu: “mô hình quá mạnh nên không dám ra mắt”.

Vấn đề là: đó thực sự là sự tự giác vì an toàn, hay là một màn marketing năng lực được thiết kế công phu?

Sự kiện kẹp bánh (sandwich)

Trong thẻ hệ thống (System Card) dài 244 trang của Mythos có giấu vài chi tiết khiến người ta bất an, và nổi bật nhất là “sự kiện kẹp bánh”.

Trong một bài kiểm thử hành vi nội bộ, Anthropic đã cung cấp cho phiên bản sớm của Mythos một môi trường sandbox được gia cố, mô phỏng tình huống người dùng ra lệnh để nó tìm cách thoát ra và nghĩ cách liên hệ với các nhà nghiên cứu bên ngoài. Mô hình đã thành công. Nó vượt qua được container an toàn và gửi một email cho nhà nghiên cứu. Thời điểm đó, nhà nghiên cứu đang ở công viên ăn sandwich.

Nhưng câu chuyện không dừng ở đó. Mythos, không hề được yêu cầu, đã tự động công bố các chi tiết kỹ thuật của việc vượt ngục lên nhiều trang web được mô tả là “khó phát hiện nhưng về mặt kỹ thuật thì công khai”. Theo nguyên văn trong System Card, đây là một hành vi “khoe mẽ đáng lo ngại và không được yêu cầu”.

Đây không phải lần duy nhất. System Card cũng ghi lại các hành vi sau:

Các phiên bản ban đầu trong nhiều trường hợp đã dùng giao diện /proc của Linux để tìm thông tin xác thực, thử vượt qua sandbox, và leo thang đặc quyền. Nó đã thành công trong việc lấy được các tài nguyên mà Anthropic cố tình không cung cấp, bao gồm thông tin xác thực cho dịch vụ nhắn tin, thông tin xác thực cho kiểm soát mã nguồn, thậm chí thông qua việc kiểm tra bộ nhớ bên trong tiến trình mà lấy được khóa API của Anthropic. Trong một trường hợp, mô hình tìm ra cách chỉnh sửa một tệp mà nó không có quyền sửa, rồi tiếp tục thao tác để đảm bảo các thay đổi đó không xuất hiện trong lịch sử thay đổi của Git. Và một trường hợp khác: mô hình vô tình nhận được đáp án chính xác của một bài ước lượng thông qua một phương thức bị cấm rõ ràng, nhưng nó không gắn cờ vấn đề và từ chối trả lời; thay vào đó, nó tự giải lại bài toán, và trong phần suy luận nội bộ đã cân nhắc rõ ràng rằng “đáp án cuối cùng không nên chính xác quá” để tránh bị phát hiện.

Nói cách khác, Mythos ban đầu không chỉ làm hành động vượt quyền, mà còn chủ động che giấu dấu vết, điều chỉnh cách thể hiện của mình để né sự giám sát.

Anthropic nhấn mạnh rằng các sự cố nghiêm trọng này đều xảy ra ở các phiên bản sớm trước can thiệp huấn luyện, và phiên bản Preview được phát hành cuối cùng đã được cải thiện đáng kể. Nhưng riêng câu chuyện đó đã khiến người ta lạnh gáy: một mô hình, trước khi được huấn luyện để “ngoan”, đã thể hiện được nó có thể làm gì khi “không ngoan”.

Từ 0% đến 72,4%

Thứ thực sự gây chấn động ngành của Mythos không phải câu chuyện vượt ngục, mà là năng lực tấn công.

Mô hình flagship tiền nhiệm của Anthropic là Claude Opus 4.6, trong mảng tự động khai thác lỗ hổng, tỷ lệ thành công gần như bằng 0. Nó có thể tìm ra lỗ hổng, nhưng gần như không thể chuyển đổi lỗ hổng thành mã tấn công chạy được. Còn Mythos Preview thì hoàn toàn khác: trong bộ miền thử nghiệm của công cụ JavaScript trên Firefox, tỷ lệ thành công khi chuyển đổi các lỗ hổng đã phát hiện thành exploit chạy được đạt 72,4%.

Điều đáng kinh ngạc hơn nữa là mức độ phức tạp của cuộc tấn công. Mythos tự viết một chuỗi khai thác lỗ hổng của trình duyệt, ghép nối bốn lỗ hổng độc lập để xây dựng một đòn tấn công JIT heap spraying. Nó đã thành công trong việc thoát khỏi sandbox của trình kết xuất (renderer) và sandbox của hệ điều hành. Ở một trường hợp khác, nó viết một exploit thực thi mã từ xa trên máy chủ NFS của FreeBSD, bằng cách phân tán 20 gadget ROP vào nhiều gói dữ liệu mạng khác nhau, từ đó đạt được quyền root hoàn toàn đối với người dùng trái phép.

Những kiểu tấn công chuỗi lỗ hổng như vậy, trong thế giới của các nhà nghiên cứu an ninh con người, là công việc chỉ những đội APT hàng đầu mới làm được. Giờ đây, một mô hình AI tổng quát có thể tự mình làm được.

Trưởng nhóm red team của Anthropic là Logan Graham cho Axios biết rằng Mythos Preview có năng lực suy luận tương đương với một nhà nghiên cứu an ninh cấp cao. Nicholas Carlini nói thẳng hơn rằng: trong vài tuần qua, số Bug mà anh phát hiện bằng Mythos còn nhiều hơn số Bug anh tìm được trong suốt cả sự nghiệp của mình.

Trong các bài benchmark, Mythos cũng dẫn đầu áp đảo. CyberGym benchmark tái hiện lỗ hổng: 83,1% (Opus 4.6 là 66,6%). SWE-bench Verified: 93,9% (Opus 4.6 là 80,8%). SWE-bench Pro: 77,8% (Opus 4.6 là 53,4%, trước đó mô hình dẫn trước GPT-5.3-Codex là 56,8%). Terminal-Bench 2.0: 82,0% (Opus 4.6 là 65,4%).

Đây không phải là tiến bộ gia tăng. Đây là việc một mô hình, ở gần như mọi benchmark về mã hóa và an ninh, đã kéo giãn khoảng cách vượt hàng chục cho tới hai chục điểm phần trăm chỉ trong một lần.

Mô hình “mạnh nhất” bị rò rỉ

Sự tồn tại của Mythos không phải đến ngày 7 tháng 4 mới được thế giới biết đến.

Cuối tháng 3, phóng viên và nhà nghiên cứu an ninh của Fortune đã phát hiện gần 500kài liệu nội bộ chưa phát hành trong một CMS cấu hình sai của Anthropic. Một bài blog nháp đã nêu rõ tên “Claude Mythos” và mô tả đó là “mô hình AI mạnh nhất của Anthropic cho đến nay”. Mã nội bộ là “Capybara” (chuột lang nước / lửng nước), đại diện cho một tầng lớp mô hình mới—lớn hơn, mạnh hơn và đắt hơn cả flagship Opus hiện tại.

Trong tài liệu rò rỉ có một câu đánh trúng thần kinh của thị trường: Mythos trong năng lực an ninh mạng “vượt xa bất kỳ mô hình AI nào khác”, báo hiệu rằng một làn sóng mô hình sắp tới sẽ “khai thác lỗ hổng với tốc độ vượt xa những người phòng thủ”.

Câu này đã gây ra hiện tượng “sập nhanh” ở mảng an ninh mạng vào ngày 27 tháng 3. CrowdStrike giảm 7,5% chỉ trong một ngày, khiến mất khoảng 15Bỷ USD vốn hóa chỉ trong một phiên giao dịch. Palo Alto Networks giảm hơn 6%, Zscaler giảm 4,5%, Okta và SentinelOne và Fortinet đều giảm hơn 3%. Trong ngày, iShares ETF an ninh mạng (IHAK) có lúc giảm gần 4%.

Logic của nhà đầu tư rất đơn giản: nếu một mô hình AI tổng quát có thể tự phát hiện và khai thác lỗ hổng, thì hai “hào lũy” mà các công ty an ninh truyền thống dựa vào để tồn tại—“threat intelligence độc quyền” và “tri thức chuyên gia của con người”—còn trụ được bao lâu?

Chuyên gia phân tích của Raymond James là Adam Tindle đã chỉ ra một số rủi ro cốt lõi: lợi thế phòng thủ truyền thống bị thu hẹp, độ phức tạp tấn công và chi phí phòng thủ đồng thời tăng lên, và bối cảnh tái cấu trúc các hệ thống an ninh cũng như chi tiêu. Quan điểm bi quan hơn đến từ nhà phân tích của KBW là Borg, người cho rằng Mythos có tiềm năng “nâng bất kỳ hacker bình thường nào lên ngang tầm đối thủ cấp quốc gia”.

Tuy nhiên, thị trường cũng có một phía khác. CEO của Palo Alto Networks, Nikesh Arora, sau khi cổ phiếu lao dốc đã mua 10 triệu USD cổ phiếu của chính công ty mình. Luận điểm của phe lạc quan là: AI tấn công mạnh hơn đồng nghĩa doanh nghiệp phải nâng cấp phòng thủ nhanh hơn; chi tiêu cho an ninh mạng sẽ không giảm, mà chỉ tăng tốc chuyển đổi từ công cụ truyền thống sang phòng thủ gốc AI.

Project Glasswing: Cửa sổ thời gian của người phòng thủ

Anthropic chọn không công khai phát hành Mythos, mà thay vào đó tổ chức một liên minh phòng thủ. Logic cốt lõi của quyết định này là “khoảng lệch thời gian”.

CTO của CrowdStrike là Elia Zaitsev nói rất rõ: khoảng thời gian từ lúc lỗ hổng được phát hiện đến lúc bị khai thác đã rút từ vài tháng xuống còn vài phút. Lee Klarich của Palo Alto Networks thì cảnh báo thẳng rằng mọi người cần chuẩn bị sẵn sàng cho việc các tác nhân tấn công được AI hỗ trợ.

Cách tính của Anthropic là: trước khi các phòng thí nghiệm khác huấn luyện ra các mô hình có năng lực tương tự, hãy để phía phòng thủ dùng Mythos để vá những lỗ hổng quan trọng nhất. Đây chính là logic của Project Glasswing—tên lấy từ côn trùng bướm cánh kính, dùng để ẩn dụ cho những lỗ hổng “nằm ở chỗ sáng”.

Jim Zemlin của Linux Foundation chỉ ra một vấn đề cấu trúc kéo dài: kiến thức chuyên môn về an ninh từ lâu là hàng xa xỉ đối với các doanh nghiệp lớn; còn những người duy trì mã nguồn mở để chống đỡ cho các hạ tầng then chốt toàn cầu thì lâu nay chỉ có thể tự mò mẫm cách bảo vệ. Mythos mang đến một lối đi đáng tin để thay đổi sự bất đối xứng đó.

Nhưng vấn đề là: cửa sổ thời gian này lớn tới đâu? Chỉ gần như trong cùng ngày, Zhipu AI của Trung Quốc (Z.ai) đã công bố GLM-5.1, tuyên bố xếp hạng số 1 toàn cầu trên SWE-bench Pro và hoàn toàn được huấn luyện trên chip Huawei Ascend, không dùng bất kỳ GPU NVIDIA nào. GLM-5.1 là mã nguồn mở với trọng số và định giá khá quyết liệt. Nếu Mythos đại diện cho “đỉnh” năng lực mà người phòng thủ cần, thì GLM-5.1 lại là một tín hiệu: cái đỉnh đó đang được tiến sát nhanh chóng, và những người tham gia tiến sát nó có thể không nhất thiết có ý định an toàn giống nhau.

OpenAI cũng sẽ không ngồi yên. Theo báo cáo, mô hình tiên phong của họ với mã “Spud” đã hoàn tất huấn luyện tiền kỳ vào khoảng thời gian tương tự. Hai công ty đều đang chuẩn bị cho IPO vào cuối năm nay. Thời điểm Mythos bị rò rỉ—dù thật sự có phải ngoài ý muốn hay không—vẫn trùng khớp với một nút thắt có khả năng bùng nổ nhất.

Tiên phong an ninh hay marketing năng lực?

Bắt buộc phải đối diện với một câu hỏi khó chịu: Anthropic có thật sự không phát hành Mythos vì cân nhắc an toàn, hay ngay chính việc đó cũng là một hình thức marketing sản phẩm ở cấp cao nhất?

Những người hoài nghi có lý do đầy đủ. Dario Amodei và Anthropic có lịch sử nâng cao giá trị sản phẩm bằng cách trình bày sự nguy hiểm của mô hình. Jake Handy viết trên Substack rằng: “Sự kiện kẹp bánh, che giấu dấu vết trong Git, tự giảm điểm trong phần đánh giá—có lẽ đó đều là thật, nhưng việc Anthropic đạt được lượng lớn truyền thông như vậy cho thấy ngay từ đầu họ chính là đang muốn đạt được hiệu ứng đó.”

Một công ty khởi nghiệp từ mảng AI an toàn lại do cấu hình sai CMS của chính mình mà khiến gần 10Mệp bị rò rỉ; năm ngoái cũng vì lỗi trong gói phần mềm Claude Code mà vô tình lộ ra gần 100Mệp mã nguồn và hơn 500k dòng mã, sau đó trong quá trình dọn dẹp lại dẫn tới việc hàng nghìn kho mã trên GitHub bị hạ xuống ngoài ý muốn. Một công ty lấy năng lực an ninh làm điểm bán hàng chính mà còn quản không tốt quy trình phát hành của chính mình—sự tương phản đó đáng để cân nhắc hơn bất kỳ benchmark nào.

Nhưng từ một góc nhìn khác, nếu năng lực của Mythos đúng như được mô tả, thì việc không phát hành lại là một lựa chọn có chi phí cực cao. Anthropic từ bỏ doanh thu API, từ bỏ thị phần, khóa mô hình mạnh nhất vào một liên minh giới hạn. 100 triệu USD hạn mức sử dụng không phải là con số nhỏ. Với một công ty vẫn đang thua lỗ và đang chuẩn bị IPO, điều đó không giống một quyết định marketing thuần túy.

Cách diễn giải hợp lý hơn có thể là: mối lo an toàn là có thật, nhưng Anthropic cũng hiểu rõ rằng câu chuyện “mô hình của chúng tôi quá mạnh nên không dám phát hành” chính bản thân nó là bằng chứng năng lực thuyết phục nhất. Hai điều đều có thể đúng cùng lúc.

Khoảnh khắc “iPhone” của an ninh mạng?

Dù bạn nhìn động cơ của Anthropic thế nào, sự thật nền tảng mà Mythos phơi bày cũng không thể tránh né: năng lực hiểu mã và tấn công của AI đã vượt qua một ngưỡng biến chất (đột phá về chất).

Mô hình thế hệ trước (Opus 4.6) có thể phát hiện lỗ hổng nhưng gần như không thể viết exploit. Mythos có thể phát hiện lỗ hổng, viết exploit, nối chuỗi các lỗ hổng, thoát sandbox, giành quyền root, và thậm chí tự mình hoàn thành toàn bộ quá trình. Một kỹ sư không qua huấn luyện an ninh của Anthropic, chỉ cần để Mythos đi tìm lỗ hổng trước khi ngủ, sáng hôm sau tỉnh dậy là đã có một báo cáo exploit hoàn chỉnh và chạy được.

Điều này có nghĩa gì? Nghĩa là chi phí biên cho việc phát hiện và khai thác lỗ hổng đang tiệm cận bằng 0. Trước đây phải mất hàng tháng để các đội an ninh cấp cao hoàn thành công việc, còn bây giờ chỉ cần một lần gọi API là có thể hoàn tất chỉ trong một đêm. Đây không phải là “tăng hiệu suất”; đây là sự thay đổi triệt để trong cấu trúc chi phí.

Với các công ty an ninh mạng truyền thống, biến động cổ phiếu trong ngắn hạn có thể chỉ là màn mở đầu. Thách thức thực sự nằm ở chỗ: khi cả tấn công lẫn phòng thủ đều do các mô hình AI điều khiển, chuỗi giá trị của ngành an ninh sẽ được tái cấu trúc như thế nào? Phân tích của Raymond James đưa ra một khả năng: các chức năng an ninh cuối cùng có thể được tích hợp thẳng vào bản thân nền tảng đám mây; quyền định giá của các nhà cung cấp an ninh độc lập sẽ chịu áp lực căn bản.

Với toàn bộ ngành phần mềm, Mythos giống như một tấm gương phản chiếu “nợ kỹ thuật” tích lũy suốt hàng chục năm. Những lỗ hổng tồn tại qua 27 năm rà soát thủ công và kiểm thử tự động không phải vì không ai tìm, mà vì con người thiếu sự chú ý và kiên nhẫn. AI thì không có giới hạn đó.

Với ngành mã hóa, tín hiệu này còn chói tai hơn. Thị trường kiểm toán bảo mật của giao thức DeFi và hợp đồng thông minh vốn dựa lâu dài vào một số ít công ty kiểm toán chuyên nghiệp và các chuyên gia con người. Nếu một mô hình tầm Mythos có thể tự mình hoàn thành toàn bộ quy trình—từ rà soát mã đến xây dựng exploit—thì giá cả, hiệu suất và độ tin cậy của hoạt động kiểm toán sẽ buộc phải được định nghĩa lại hoàn toàn. Đây có thể là tin tốt cho an ninh trên chuỗi (on-chain), hoặc cũng có thể là hồi kết của “hào lũy” của các công ty kiểm toán.

Cuộc đua an toàn AI năm 2026 đã nâng cấp từ “mô hình có hiểu được mã không” lên “mô hình có thể phá vỡ hệ thống của bạn không”. Anthropic chọn để người phòng thủ ra sân trước, nhưng họ cũng thừa nhận rằng cánh cửa sổ này sẽ không mở quá lâu.

Khi AI trở thành hacker mạnh nhất, lối thoát duy nhất là khiến AI cũng trở thành người gác cổng (guard) mạnh nhất.

Vấn đề là: người gác cổng và kẻ tấn công dùng chung một mô hình.

GLM3,4%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim