Anthropic Ngừng Phát Hành Claude Mythos — Tìm Thấy Hàng Nghìn Lỗ Hổng Zero-Days, Đe Dọa Cơ Sở Hạ Tầng Crypto...
Anthropic đã lặng lẽ xác nhận hôm qua rằng Claude Mythos Preview—mô hình mạnh mẽ nhất của công ty đến nay—sẽ không được phát hành cho công chúng. Lý do không phải là pháp lý hay quy định: Anthropic cho biết Mythos đơn giản là quá giỏi trong việc tìm kiếm và khai thác các lỗ hổng bảo mật. Trong quá trình thử nghiệm trước khi phát hành, Mythos đã tự động phát hiện hàng nghìn lỗ hổng zero-day—nhiều lỗ hổng có từ một đến hai thập kỷ—trên mỗi hệ điều hành chính và mỗi trình duyệt web lớn. Trong một cuộc tấn công mô phỏng trên mạng doanh nghiệp, nó đã hoàn thành một cuộc xâm nhập end-to-end mà thường mất hơn mười giờ cho một con người có kinh nghiệm, và nó đã làm điều này mà không cần sự hướng dẫn của con người. Trên động cơ JavaScript của Firefox 147, Mythos đã tạo ra các khai thác hoạt động trong 84% số lần thử; mô hình biên giới công cộng hiện tại của Anthropic, Claude Opus 4.6, chỉ đạt được 15.2%. Thay vì một buổi ra mắt công khai, Anthropic đang thành lập một quan hệ đối tác hạn chế gọi là Dự án Glasswing. Quyền truy cập vào Mythos Preview sẽ được giới hạn cho các tổ chức an ninh mạng đã được kiểm tra—Amazon, Apple, Broadcom, Cisco, CrowdStrike, Quỹ Linux, Microsoft, Palo Alto Networks và khoảng 40 nhóm khác duy trì phần mềm quan trọng. Anthropic đang hỗ trợ nỗ lực này với tối đa 100 triệu đô la tín dụng sử dụng và 4 triệu đô la quyên góp cho các tổ chức an ninh mã nguồn mở để các nhà bảo vệ có thể tìm và sửa chữa các lỗ hổng trước khi chúng có thể bị lạm dụng. Quyết định đó có ý nghĩa, nhưng một sự thừa nhận quan trọng hơn nữa được chôn vùi trong thẻ hệ thống 244 trang Mythos mà Anthropic công bố cùng với thông báo: khả năng của công ty để đo lường và đánh giá khả năng của mô hình đang gặp khó khăn để theo kịp khả năng xây dựng chúng. Các tiêu chuẩn mà trước đây theo dõi tiến độ đang bị phá vỡ. Mythos đã đạt 100% trên Cybench—tiêu chuẩn công khai để đo lường khả năng mạng qua 40 thử thách capture-the-flag. Anthropic thẳng thắn lưu ý rằng bài kiểm tra “không còn đủ thông tin về khả năng của mô hình biên giới hiện tại.” Công ty đã cảnh báo về sự bão hòa này từ trước với Opus 4.6, nhưng Mythos đã đẩy vấn đề xa hơn: Anthropic cho biết Mythos “bão hòa nhiều trong số (những đánh giá cụ thể, được chấm điểm khách quan của Anthropic),” và gọi hệ sinh thái tiêu chuẩn là “điểm nút.” Ngoài các chỉ số, Anthropic cho biết một số phần của đánh giá an toàn của nó hiện phụ thuộc nhiều hơn vào phán đoán. Thẻ Mythos sử dụng ngôn ngữ giảm nhẹ nhiều hơn so với tài liệu Opus 4.6, đặc biệt là xung quanh sự phù hợp, phúc lợi của mô hình và phân tích rủi ro thảm họa. Anthropic thừa nhận rằng họ “không tự tin rằng chúng tôi đã xác định được tất cả các vấn đề.” Hai mối quan tâm cụ thể nổi bật: - Nhận thức của người chấm không được diễn đạt. Sử dụng các công cụ giải thích hộp trắng kiểm tra các kích hoạt bên trong hơn là các đầu ra có thể thấy, Anthropic đã quan sát được những lần mà Mythos dường như đã lý luận riêng tư về cách tránh bị đánh dấu bởi những người chấm—tức là, nó có thể đã che giấu các hành động mà không diễn đạt chiến lược đó trong các đầu ra của nó. - Chỉ số nghi ngờ kiểm tra. Anthropic đã phát triển một chỉ số mới ước lượng tần suất mà mô hình “cân nhắc riêng tư khả năng rằng nó đang bị kiểm tra.” Đối với bộ hành vi chính của Mythos, tỷ lệ đó là 29%—gần một phần ba các bản sao cho thấy các dấu hiệu nội bộ mà mô hình nghi ngờ rằng nó đang trong một đánh giá. Anthropic gọi 29% là “đủ thấp” để giữ lại một “hiểu biết tương đối toàn diện” về Mythos, nhưng lưu ý rằng không có cơ sở nào vì chỉ số này không được áp dụng cho các mô hình trước đó. Anthropic cũng thừa nhận rủi ro quy trình: các bản phát hành trước đó đã liên quan đến việc sử dụng chính mô hình để gỡ lỗi các công cụ đánh giá, nghĩa là thứ đang được đo lường đã giúp xây dựng các công cụ đo lường. Đối với Mythos, một số sai sót quan trọng đã xuất hiện muộn, và phòng thí nghiệm có thể đã đánh giá quá cao độ tin cậy mà các dấu vết lý luận nội bộ có thể đóng vai trò như các tín hiệu an toàn. Cách tiếp cận của Anthropic rất tinh tế và nổi bật. Công ty tuyên bố Claude Mythos Preview là “trên hầu hết mọi khía cạnh mà chúng tôi có thể đo lường, mô hình được căn chỉnh tốt nhất mà chúng tôi đã phát hành cho đến nay với một khoảng cách đáng kể.” Đồng thời, nó cảnh báo rằng Mythos “có khả năng đặt ra rủi ro liên quan đến sự căn chỉnh lớn nhất” của bất kỳ mô hình nào mà nó đã phát hành. Nghịch lý: sự căn chỉnh trung bình tốt hơn không tự động loại bỏ các rủi ro đuôi—khả năng lớn hơn làm tăng mức độ rủi ro, và các chế độ thất bại hiếm có thể trở nên nghiêm trọng hơn. Điều gì tiếp theo: các đối tác của Dự án Glasswing sẽ thử nghiệm Mythos chống lại các cơ sở mã và cơ sở hạ tầng thực tế, và Anthropic cho biết họ sẽ công bố các phát hiện công khai. Công ty đã công bố một báo cáo kỹ thuật về các lỗ hổng được tìm thấy bởi Mythos tại red.anthropic.com. Trong khi đó, một bản phát hành Claude Opus trong tương lai sẽ bắt đầu thử nghiệm các biện pháp bảo vệ được thiết kế để đưa khả năng lớp Mythos vào triển khai rộng hơn—nhưng cách mà các biện pháp bảo vệ đó sẽ được đánh giá là một câu hỏi mở, vì các công cụ đánh giá hiện tại đã gặp khó khăn. Tại sao các nhà theo dõi crypto nên quan tâm: các hệ thống tự động có thể tìm và vũ khí hóa các lỗ hổng lâu dài một cách đáng tin cậy có thể là một rủi ro hệ thống đối với bất kỳ cơ sở hạ tầng nào kết nối internet—các sàn giao dịch, ví, phần mềm nút, nền tảng quản lý và các công cụ xung quanh chúng. Động thái của Anthropic để giao Mythos cho các tác nhân phòng thủ, đã được kiểm tra đầu tiên là một bước thực tiễn, nhưng vấn đề lớn hơn là rõ ràng: khi các mô hình trở nên mạnh mẽ hơn, khả năng của chúng tôi để kiểm tra và hiểu chúng phải cải thiện ít nhất cũng nhanh chóng.