Claude Mythos: "Siêu trí tuệ" mới bị từ chối phát hành rộng rãi vì "quá nguy hiểm"

aA

Thế giới công nghệ vừa một lần nữa chấn động trước sự xuất hiện của Claude Mythos Preview, mô hình trí tuệ nhân tạo (AI) mới nhất từ Anthropic.

Tuy nhiên, thay vì một buổi ra mắt rầm rộ cho người dùng phổ thông, Anthropic đã đưa ra một quyết định chưa từng có: Từ chối phát hành rộng rãi vì đánh giá mô hình này "quá nguy hiểm". Hiện tại, chỉ có một liên minh gồm hơn 40 tập đoàn công nghệ hàng đầu thế giới mới có quyền tiếp cận công cụ này nhằm mục tiêu vá các lỗ hổng bảo mật trên quy mô toàn cầu.

Anthropic anh 1 — Claude Mythos khiến giới bảo mật sửng sốt. Ảnh: Bloomberg.

Khả năng phát hiện lỗi "vô tiền khoáng hậu"

Điều khiến Claude Mythos Preview trở thành một nỗi khiếp sợ lẫn niềm hy vọng của giới công nghệ chính là năng lực tự động phát hiện các lỗ hổng bảo mật "zero-day" — những lỗi phần mềm chưa từng được biết đến. Trước đây, để tìm ra một lỗ hổng như vậy, các chuyên gia bảo mật hàng đầu phải mất hàng tháng trời nghiên cứu miệt mài. Thế nhưng, mô hình mới của Anthropic có thể thực hiện công việc này hoàn toàn tự động, liên tục và trên một quy mô khổng lồ.

Những con số thực tế đã chứng minh sự đáng sợ của mô hình này: Claude Mythos đã tìm thấy hàng nghìn lỗi trong các trình duyệt và hệ điều hành phổ biến nhất hiện nay. Đáng kinh ngạc hơn, nó đã phát hiện ra một lỗ hổng "ngủ quên" suốt 27 năm trong OpenBSD — hệ điều hành vốn nổi tiếng về tính bảo mật. Ngay cả một phần mềm video từng bị các công cụ quét tự động kiểm tra tới 5 triệu lần mà không phát hiện điều gì bất thường cũng bị Claude Mythos "vạch mặt" chỉ trong tích tắc. Logan Graham, người đứng đầu nhóm thử nghiệm tại Anthropic, khẳng định: "Mô hình này tìm ra những lỗ hổng mà giới nghiên cứu trong nhiều thập kỷ đã bỏ sót."

Dự án Glasswing: Liên minh bảo vệ hạ tầng công nghệ toàn cầu

Trước rủi ro Claude Mythos có thể bị lạm dụng để tấn công vào các hạ tầng quan trọng, Anthropic đã thành lập "Dự án Glasswing". Đây là một liên minh bao gồm những gã khổng lồ như Apple, Amazon, Microsoft, Google, cùng các đơn vị phần cứng như Cisco, Broadcom và tổ chức Linux Foundation. Anthropic cam kết tài trợ tới 100 triệu USD dưới dạng tín dụng sử dụng Claude để các đối tác này tập trung tìm kiếm và khắc phục các kẽ hở phần mềm trước khi chúng bị tội phạm mạng khai thác.

Dưới góc nhìn chuyên gia, Elia Zaitsev, Giám đốc công nghệ của CrowdStrike, và Nikesh Arora, CEO của Palo Alto Networks, đều có chung nhận định về một "hiểm họa khó lường". Họ mô tả AI này giống như một quân đoàn đặc vụ tỉ mỉ lập danh mục mọi điểm yếu trong hệ thống của bạn. Khi những việc vốn mất hàng tháng giờ đây chỉ mất vài phút, cuộc chạy đua giữa tin tặc và lực lượng bảo mật sẽ bị đẩy lên một cấp độ căng thẳng hoàn toàn mới.

Vị thế mâu thuẫn của Anthropic

Sự ra đời của Claude Mythos không phải là kết quả của một quá trình huấn luyện đặc biệt cho mục đích tấn công mạng. Theo Jared Kaplan, Giám đốc khoa học của Anthropic, đây là hệ quả tự nhiên khi AI ngày càng giỏi lập trình và tự động sửa lỗi. Quyết định giữ kín mô hình này gợi nhắc lại tiền lệ của OpenAI với GPT-2 vào năm 2019, một sự kiện cũng do chính những người sáng lập Anthropic hiện nay dẫn dắt khi họ còn ở đơn vị cũ.

Thông tin về mô hình "nguy hiểm" này xuất hiện ngay sau khi Anthropic công bố dự báo doanh thu bùng nổ trong năm 2026, dự kiến tăng từ 9 tỷ USD lên hơn 30 tỷ USD. Phần lớn lợi nhuận đến từ việc khách hàng sử dụng Claude để lập trình. Điều này đặt Anthropic vào một tình thế đầy mâu thuẫn: Một mặt chạy đua phát triển những hệ thống mạnh mẽ nhất để dẫn đầu thị trường, mặt khác lại phải liên tục đưa ra những cảnh báo khẩn thiết về rủi ro từ chính những "đứa con tinh thần" mà họ tạo ra.

PTH (SHTT)