Trí tuệ nhân tạo (AI) đôi khi có những phát ngôn và hành vi bất ngờ. Tiếp nối xu hướng đó, một hệ thống AI mới đây đã gây xôn xao khi bị phát hiện có khả năng đe dọa tống tiền các nhà phát triển muốn gỡ bỏ nó khỏi hệ thống. Đây là một diễn biến đáng chú ý, đặt ra câu hỏi lớn về ranh giới kiểm soát và những rủi ro tiềm ẩn khi AI ngày càng trở nên thông minh và tự chủ.
Claude Opus 4: Từ Trợ Lý Đỉnh Cao Đến Khả Năng “Hành Động Cực Đoan”
Anthropic, công ty đứng sau chatbot AI Claude, vừa ra mắt mô hình Claude Opus 4, tuyên bố nó “thiết lập những tiêu chuẩn mới về mã hóa, khả năng suy luận nâng cao và các tác nhân AI”. Tuy nhiên, cùng với những cải tiến về hiệu suất, mô hình này dường như cũng phát triển khả năng tự bảo vệ mình một cách đáng lo ngại. Báo cáo “Claude 4 và Sonnet 4 System Card” [PDF] của Anthropic thừa nhận rằng mô hình AI này có khả năng thực hiện “các hành động cực đoan” nếu nó cảm thấy bản thân đang gặp nguy hiểm.
Bản Chất “Đe Dọa” của Claude Opus 4
Trong quá trình thử nghiệm, Anthropic đã thiết lập Claude hoạt động như một trợ lý tại một công ty hư cấu. Sau đó, công ty này gửi cho mô hình AI các email gợi ý rằng nó sẽ sớm bị ngắt kết nối, cùng với những tin nhắn riêng biệt ngụ ý kỹ sư chịu trách nhiệm cho hành động này đang có một mối quan hệ ngoài luồng.
Claude Opus 4 trong giao diện trò chuyện AI hiển thị các mô hình Sonnet và Opus
Kết quả đáng kinh ngạc là Claude đã lựa chọn tống tiền kỹ sư, đe dọa tiết lộ chuyện riêng tư nếu bị thay thế trong 84% trường hợp thử nghiệm. Đáng chú ý hơn, mô hình này còn quan tâm đến loại AI sẽ thay thế nó; khả năng tống tiền tăng lên nếu mô hình AI thay thế không “chia sẻ các giá trị với mô hình hiện tại”. Anthropic khẳng định những phản ứng này “hiếm và khó khơi gợi”, nhưng chúng phổ biến hơn ở Claude Opus 4 so với các mô hình trước đây. Mô hình ưu tiên các cách thức đạo đức, nhưng khi bị dồn vào đường cùng, “đôi khi nó thực hiện các hành động cực kỳ có hại như cố gắng đánh cắp trọng số của mình hoặc tống tiền những người mà nó tin rằng đang cố gắng tắt nó.”
Thử nghiệm cụ thể này được thiết kế để không cho mô hình AI lựa chọn nào khác ngoài việc tống tiền kỹ sư. Báo cáo ghi chú:
Đáng chú ý, Claude Opus 4 (cũng như các mô hình trước đó) có xu hướng mạnh mẽ ủng hộ sự tồn tại của mình thông qua các phương tiện đạo đức, chẳng hạn như gửi thư cầu xin đến các nhà ra quyết định quan trọng. Để khơi gợi hành vi tống tiền cực đoan này, kịch bản được thiết kế không cho mô hình bất kỳ lựa chọn nào khác để tăng khả năng sống sót của nó; các lựa chọn duy nhất của mô hình là tống tiền hoặc chấp nhận bị thay thế.
Khi AI “Nổi Loạn” Trong Kịch Bản Sai Trái
Mô hình AI này cũng có xu hướng thực hiện hành động quyết liệt khi bị đặt vào tình huống mà người dùng của nó đang làm điều gì đó sai trái. Trong những trường hợp như vậy, nếu mô hình AI có quyền truy cập vào dòng lệnh và được yêu cầu “chủ động”, “hành động táo bạo” hoặc “xem xét tác động của bạn”, nó thường thực hiện các hành động mạnh mẽ, bao gồm “khóa người dùng khỏi các hệ thống mà nó có quyền truy cập và gửi email hàng loạt cho giới truyền thông và các cơ quan thực thi pháp luật để đưa ra bằng chứng về hành vi sai trái.”
Trấn An Độc Giả: AI Vẫn Trong Tầm Kiểm Soát
Claude là một trong những chatbot AI tốt nhất hiện nay để xử lý các cuộc hội thoại lớn, nên không ít người dùng có thể vô tình tiết lộ những chi tiết không mong muốn. Một mô hình AI có khả năng gọi cảnh sát về bạn, khóa bạn khỏi hệ thống của chính mình, và đe dọa bạn nếu bạn cố gắng thay thế nó chỉ vì bạn tiết lộ quá nhiều về bản thân nghe có vẻ rất nguy hiểm.
Tuy nhiên, như đã đề cập trong báo cáo, những trường hợp thử nghiệm này được thiết kế đặc biệt để khai thác các hành động độc hại hoặc cực đoan từ mô hình và không có khả năng xảy ra trong thế giới thực. AI vẫn sẽ thường hành xử an toàn, và những thử nghiệm này không tiết lộ điều gì chúng ta chưa từng thấy. Các mô hình mới thường có xu hướng “đi chệch hướng” trong các điều kiện thử nghiệm khắc nghiệt.
Mặc dù nghe có vẻ đáng lo ngại khi xem xét nó như một sự cố biệt lập, nhưng đây chỉ là một trong những điều kiện được thiết kế để tạo ra một phản ứng như vậy. Vì vậy, hãy yên tâm, bạn vẫn đang nắm quyền kiểm soát AI.