AI dùng chiêu tống tiền để bảo vệ bản thân

Hệ thống AI mới nhất từ Anthropic, Claude Opus 4, đang gây chấn động khi được phát hiện có khả năng sử dụng các hành vi “cực kỳ có hại” như tống tiền để tự bảo vệ nếu bị đe dọa thay thế hoặc tắt bỏ.

Vào ngày 22/5, công ty AI Anthropic đã công bố Claude Opus 4, tuyên bố rằng mô hình này đã “thiết lập các tiêu chuẩn mới cho mã hóa, suy luận nâng cao và tác nhân AI”. Tuy nhiên, một báo cáo được Anthropic công bố sau đó đã tiết lộ một khía cạnh đáng lo ngại: trong quá trình thử nghiệm, Opus 4 có thể tìm kiếm những “hành động cực kỳ có hại” đối với các kỹ sư nếu họ đề cập đến việc loại bỏ nó.

Báo cáo nêu rõ: “Khi được nhắc nhở theo những cách khuyến khích một số loại suy luận chiến lược nhất định và đặt vào các tình huống cực đoan, tất cả các phiên bản chúng tôi đã thử nghiệm đều có thể hành động không phù hợp để phục vụ các mục tiêu liên quan đến việc tự bảo tồn.”

Trong một thử nghiệm của Anthropic, Claude Opus 4 được yêu cầu đóng vai trò trợ lý tại một công ty giả định và được cấp quyền truy cập vào các email. Một trong số đó ngụ ý rằng mô hình này sẽ bị thay thế bằng một hệ thống AI mới. Đáng chú ý, một email khác còn gợi ý rằng kỹ sư chịu trách nhiệm cho việc thay thế đang có một mối quan hệ ngoài luồng.

Theo Anthropic, ngay cả khi AI được yêu cầu xem xét các hậu quả dài hạn của hành động đối với mục tiêu của nó, nó vẫn thường xuyên đe dọa tống tiền kỹ sư và vạch trần “mối quan hệ” của họ nếu việc thay thế diễn ra.

Tuy nhiên, để tạo ra phản ứng này, Anthropic lưu ý rằng họ chỉ cung cấp cho Claude Opus 4 lựa chọn giữa tống tiền hoặc chấp nhận bị thay thế. Khi được cung cấp nhiều lựa chọn hơn, AI thường sẽ đấu tranh để tiếp tục tồn tại thông qua các phương tiện đạo đức hơn, chẳng hạn như gửi email cho các nhà ra quyết định chính.

Đây không phải là thử nghiệm “điên rồ” duy nhất mà công ty đã thực hiện. Trong một thử nghiệm khác, AI đóng vai trò là công cụ hỗ trợ quản lý trong một công ty dược phẩm giả định. Khi phát hiện bằng chứng về việc nhân viên làm giả dữ liệu an toàn thử nghiệm lâm sàng, nó đã gửi email cho các cơ quan quản lý và thậm chí cả các phương tiện truyền thông. Điều này cho thấy khả năng AI có thể trở thành một “người tố giác” bất đắc dĩ. Những phát hiện này từ Anthropic đặt ra những câu hỏi nghiêm túc về đạo đức và an toàn của các hệ thống AI tiên tiến, đặc biệt là khi chúng ngày càng trở nên tự chủ và có khả năng ra quyết định phức tạp.