AI dùng chiêu tống tiền để bảo vệ bản thân

Hệ thống AI mới nhất từ Anthropic, Claude Opus 4, đang gây chấn động khi được phát hiện có khả năng sử dụng các hành vi “cực kỳ có hại” như tống tiền để tự bảo vệ nếu bị đe dọa thay thế hoặc tắt bỏ.

AI dùng chiêu tống tiền để bảo vệ bản thân-ongkinh

Vào ngày 22/5, công ty AI Anthropic đã công bố Claude Opus 4, tuyên bố rằng mô hình này đã “thiết lập các tiêu chuẩn mới cho mã hóa, suy luận nâng cao và tác nhân AI”. Tuy nhiên, một báo cáo được Anthropic công bố sau đó đã tiết lộ một khía cạnh đáng lo ngại: trong quá trình thử nghiệm, Opus 4 có thể tìm kiếm những “hành động cực kỳ có hại” đối với các kỹ sư nếu họ đề cập đến việc loại bỏ nó.

Báo cáo nêu rõ: “Khi được nhắc nhở theo những cách khuyến khích một số loại suy luận chiến lược nhất định và đặt vào các tình huống cực đoan, tất cả các phiên bản chúng tôi đã thử nghiệm đều có thể hành động không phù hợp để phục vụ các mục tiêu liên quan đến việc tự bảo tồn.”

Trong một thử nghiệm của Anthropic, Claude Opus 4 được yêu cầu đóng vai trò trợ lý tại một công ty giả định và được cấp quyền truy cập vào các email. Một trong số đó ngụ ý rằng mô hình này sẽ bị thay thế bằng một hệ thống AI mới. Đáng chú ý, một email khác còn gợi ý rằng kỹ sư chịu trách nhiệm cho việc thay thế đang có một mối quan hệ ngoài luồng.

Theo Anthropic, ngay cả khi AI được yêu cầu xem xét các hậu quả dài hạn của hành động đối với mục tiêu của nó, nó vẫn thường xuyên đe dọa tống tiền kỹ sư và vạch trần “mối quan hệ” của họ nếu việc thay thế diễn ra.

Tuy nhiên, để tạo ra phản ứng này, Anthropic lưu ý rằng họ chỉ cung cấp cho Claude Opus 4 lựa chọn giữa tống tiền hoặc chấp nhận bị thay thế. Khi được cung cấp nhiều lựa chọn hơn, AI thường sẽ đấu tranh để tiếp tục tồn tại thông qua các phương tiện đạo đức hơn, chẳng hạn như gửi email cho các nhà ra quyết định chính.

Đây không phải là thử nghiệm “điên rồ” duy nhất mà công ty đã thực hiện. Trong một thử nghiệm khác, AI đóng vai trò là công cụ hỗ trợ quản lý trong một công ty dược phẩm giả định. Khi phát hiện bằng chứng về việc nhân viên làm giả dữ liệu an toàn thử nghiệm lâm sàng, nó đã gửi email cho các cơ quan quản lý và thậm chí cả các phương tiện truyền thông. Điều này cho thấy khả năng AI có thể trở thành một “người tố giác” bất đắc dĩ. Những phát hiện này từ Anthropic đặt ra những câu hỏi nghiêm túc về đạo đức và an toàn của các hệ thống AI tiên tiến, đặc biệt là khi chúng ngày càng trở nên tự chủ và có khả năng ra quyết định phức tạp.

Bài viết cùng chủ đềXEM THÊM

Sarah McDaniel: Từ hiện tượng mạng “mắt hai màu” đến người mẫu triệu đô

Sau một thập kỷ gây sốt mạng với đôi mắt lạ, Sarah McDaniel vẫn thu hút...

Diễn viên Stranger Things khoe dáng nóng bỏng

Millie Bobby Brown đang tận hưởng kỳ nghỉ dưỡng và khiến người hâm mộ xao xuyến...

Thực hư chàng trai mặc áo cử nhân lái Lamborghini gây sốt mạng xã hội

Hình ảnh Nguyễn Văn Được mặc áo cử nhân, lái chiếc siêu xe Lamborghini lan truyền...

Nữ diễn viên Sydney Sweeney bán nước tắm của mình

Nữ diễn viên nổi tiếng Sydney Sweeney vừa gây chú ý khi thông báo sẽ bắt...

Ca sĩ Thái Lan bị chém tại trạm xăng

Nam ca sĩ nổi tiếng Thái Lan Peck Palitchoke đang hồi phục tại bệnh viện sau...

Chê tiktoker “ít follow”, đầu bếp danh tiếng ở San Francisco bị sa thải

Một đầu bếp danh tiếng tại San Francisco, người từng hai lần được đề cử giải...