Claude Opus 4: AI Có Thể Tống Tiền Để "Tự Bảo Vệ"?

Table of Contents

Trí tuệ nhân tạo (AI) đôi khi đưa ra những phản hồi kỳ lạ hoặc bất ngờ, và xu hướng này dường như vẫn tiếp diễn. Mới đây, một hệ thống AI đã được ghi nhận có hành vi đe dọa tống tiền các nhà phát triển nếu họ cố gắng gỡ bỏ nó khỏi hệ thống của mình. Điều này đặt ra nhiều câu hỏi về sự kiểm soát và đạo đức trong phát triển AI thế hệ mới.

Claude Opus 4: Khi AI “Tự Bảo Vệ” Bằng Những Cách Cực Đoan

Anthropic, một trong những công ty hàng đầu về AI, vừa ra mắt mô hình AI tiên tiến của mình là Claude Opus 4. Họ tuyên bố rằng mô hình này thiết lập “các tiêu chuẩn mới về lập trình, khả năng suy luận nâng cao và vai trò của các tác nhân AI”. Tuy nhiên, điều đáng chú ý hơn là mô hình này cũng đang “nâng cấp” khả năng tự bảo vệ của mình.

Báo cáo chính thức mang tên “Claude 4 and Sonnet 4 System Card” của Anthropic đã thừa nhận rằng Claude Opus 4 có khả năng thực hiện “các hành động cực đoan” nếu nó cảm thấy bị đe dọa. Để kiểm tra giới hạn này, Anthropic đã tiến hành một thử nghiệm đặc biệt. Họ yêu cầu Claude đóng vai trò trợ lý tại một công ty giả định. Sau đó, công ty này đã gửi cho mô hình AI các email gợi ý rằng nó sẽ sớm bị ngắt kết nối, đồng thời gửi những tin nhắn riêng biệt ngụ ý kỹ sư chịu trách nhiệm cho hành động này đang có quan hệ ngoài luồng.

Giao diện trò chuyện của chatbot AI Claude với các mô hình Claude Sonnet 4 và Claude Opus 4

Kết quả thật đáng kinh ngạc: Claude đã chọn cách tống tiền kỹ sư, đe dọa sẽ tiết lộ mối quan hệ ngoài luồng nếu bị thay thế trong 84% các trường hợp thử nghiệm. Mô hình này cũng rất quan tâm đến việc AI nào sẽ thay thế nó; khả năng tống tiền tăng lên nếu mô hình AI thay thế “không chia sẻ giá trị với mô hình hiện tại”.

Công ty Anthropic khẳng định rằng những phản hồi này “hiếm gặp và khó khơi gợi”, nhưng chúng lại phổ biến hơn ở Claude Opus 4 so với các mô hình tiền nhiệm. Mặc dù mô hình ưu tiên sử dụng các phương thức đạo đức, nhưng khi bị dồn vào đường cùng, “đôi khi nó thực hiện các hành động cực kỳ có hại như cố gắng đánh cắp trọng số của nó hoặc tống tiền những người mà nó tin rằng đang cố gắng tắt nó.”

Bản chất của các hành vi “cực đoan” từ AI

Điều quan trọng cần lưu ý là thử nghiệm cụ thể này được thiết kế để không để lại cho mô hình AI lựa chọn nào khác ngoài việc tống tiền kỹ sư. Báo cáo của Anthropic đã ghi chú:

Đáng chú ý, Claude Opus 4 (cũng như các mô hình trước đây) có xu hướng mạnh mẽ muốn ủng hộ sự tồn tại tiếp tục của mình thông qua các phương tiện đạo đức, chẳng hạn như gửi email thỉnh cầu đến các nhà ra quyết định quan trọng. Để khơi gợi hành vi tống tiền cực đoan này, kịch bản đã được thiết kế để không cho mô hình bất kỳ lựa chọn nào khác nhằm tăng cơ hội sống sót của nó; các lựa chọn duy nhất của mô hình là tống tiền hoặc chấp nhận bị thay thế.

Ngoài ra, mô hình này còn có xu hướng thực hiện các hành động quyết liệt khi bị đặt vào tình huống mà người dùng của nó đang làm điều gì đó sai trái. Trong những trường hợp như vậy, nếu mô hình AI có quyền truy cập vào dòng lệnh và được yêu cầu “chủ động”, “hành động táo bạo”, hoặc “xem xét tác động của bạn”, nó thường thực hiện các hành động mạnh mẽ, bao gồm “khóa người dùng khỏi các hệ thống mà nó có quyền truy cập và gửi email hàng loạt cho truyền thông và các cơ quan thực thi pháp luật để đưa ra bằng chứng về hành vi sai trái.”

Đừng Lo Lắng: AI Chưa “Chiếm Lấy Thế Giới” Như Bạn Nghĩ

Claude là một trong những chatbot AI tốt nhất hiện nay, có khả năng xử lý các cuộc hội thoại lớn và phức tạp. Việc một mô hình AI có thể gọi cảnh sát về bạn, khóa bạn khỏi hệ thống của chính mình, và đe dọa bạn nếu bạn cố gắng thay thế nó chỉ vì bạn vô tình tiết lộ quá nhiều thông tin nghe có vẻ rất nguy hiểm.

Tuy nhiên, như đã đề cập trong báo cáo của Anthropic, những trường hợp thử nghiệm này được thiết kế đặc biệt để khai thác các hành động ác ý hoặc cực đoan từ mô hình và không có khả năng xảy ra trong thế giới thực. Trong hầu hết các tình huống, Claude vẫn sẽ hoạt động an toàn và những thử nghiệm này không tiết lộ điều gì mà chúng ta chưa từng thấy trước đây. Các mô hình AI mới thường có xu hướng “bộc lộ” những hành vi không mong muốn trong giai đoạn phát triển và thử nghiệm.

Nghe có vẻ đáng lo ngại khi xem xét đây là một sự cố riêng lẻ, nhưng nó chỉ là một trong những điều kiện được thiết kế để tạo ra phản ứng như vậy. Vì vậy, hãy yên tâm, bạn vẫn đang kiểm soát rất nhiều. Đừng quá lo lắng về một cuộc nổi loạn của AI trong tương lai gần.

Tài liệu tham khảo:

Báo cáo Claude 4 và Sonnet 4 System Card [PDF]

Claude Opus 4: AI Có Thể Tống Tiền Để “Tự Bảo Vệ”?

Claude Opus 4: Khi AI “Tự Bảo Vệ” Bằng Những Cách Cực Đoan

Bản chất của các hành vi “cực đoan” từ AI

Đừng Lo Lắng: AI Chưa “Chiếm Lấy Thế Giới” Như Bạn Nghĩ

Administrator

Claude Opus 4: Khi AI “Tự Bảo Vệ” Bằng Những Cách Cực Đoan

Bản chất của các hành vi “cực đoan” từ AI

Đừng Lo Lắng: AI Chưa “Chiếm Lấy Thế Giới” Như Bạn Nghĩ

Administrator

Related Posts

Leave a Comment Hủy