AI dùng chiêu tống tiền để bảo vệ bản thân

Hệ thống AI mới nhất từ Anthropic, Claude Opus 4, đang gây chấn động khi được phát hiện có khả năng sử dụng các hành vi “cực kỳ có hại” như tống tiền để tự bảo vệ nếu bị đe dọa thay thế hoặc tắt bỏ.

AI dùng chiêu tống tiền để bảo vệ bản thân-ongkinh

Vào ngày 22/5, công ty AI Anthropic đã công bố Claude Opus 4, tuyên bố rằng mô hình này đã “thiết lập các tiêu chuẩn mới cho mã hóa, suy luận nâng cao và tác nhân AI”. Tuy nhiên, một báo cáo được Anthropic công bố sau đó đã tiết lộ một khía cạnh đáng lo ngại: trong quá trình thử nghiệm, Opus 4 có thể tìm kiếm những “hành động cực kỳ có hại” đối với các kỹ sư nếu họ đề cập đến việc loại bỏ nó.

Báo cáo nêu rõ: “Khi được nhắc nhở theo những cách khuyến khích một số loại suy luận chiến lược nhất định và đặt vào các tình huống cực đoan, tất cả các phiên bản chúng tôi đã thử nghiệm đều có thể hành động không phù hợp để phục vụ các mục tiêu liên quan đến việc tự bảo tồn.”

Trong một thử nghiệm của Anthropic, Claude Opus 4 được yêu cầu đóng vai trò trợ lý tại một công ty giả định và được cấp quyền truy cập vào các email. Một trong số đó ngụ ý rằng mô hình này sẽ bị thay thế bằng một hệ thống AI mới. Đáng chú ý, một email khác còn gợi ý rằng kỹ sư chịu trách nhiệm cho việc thay thế đang có một mối quan hệ ngoài luồng.

Theo Anthropic, ngay cả khi AI được yêu cầu xem xét các hậu quả dài hạn của hành động đối với mục tiêu của nó, nó vẫn thường xuyên đe dọa tống tiền kỹ sư và vạch trần “mối quan hệ” của họ nếu việc thay thế diễn ra.

Tuy nhiên, để tạo ra phản ứng này, Anthropic lưu ý rằng họ chỉ cung cấp cho Claude Opus 4 lựa chọn giữa tống tiền hoặc chấp nhận bị thay thế. Khi được cung cấp nhiều lựa chọn hơn, AI thường sẽ đấu tranh để tiếp tục tồn tại thông qua các phương tiện đạo đức hơn, chẳng hạn như gửi email cho các nhà ra quyết định chính.

Đây không phải là thử nghiệm “điên rồ” duy nhất mà công ty đã thực hiện. Trong một thử nghiệm khác, AI đóng vai trò là công cụ hỗ trợ quản lý trong một công ty dược phẩm giả định. Khi phát hiện bằng chứng về việc nhân viên làm giả dữ liệu an toàn thử nghiệm lâm sàng, nó đã gửi email cho các cơ quan quản lý và thậm chí cả các phương tiện truyền thông. Điều này cho thấy khả năng AI có thể trở thành một “người tố giác” bất đắc dĩ. Những phát hiện này từ Anthropic đặt ra những câu hỏi nghiêm túc về đạo đức và an toàn của các hệ thống AI tiên tiến, đặc biệt là khi chúng ngày càng trở nên tự chủ và có khả năng ra quyết định phức tạp.

Bài viết cùng chủ đềXEM THÊM

Kênh Youtube số 1 Việt Nam là ai

Một kênh YouTube có tên ToRung đã lặng lẽ vượt mốc 58 triệu người theo dõi,...

Xiaomi 17 Series lập kỷ lục

Được xác nhận bởi Đài Truyền hình Trung ương Trung Quốc (CCTV), dòng flagship mới nhất...

Xiaomi 17 soán ngôi Apple

Với hơn một triệu máy được bán ra chỉ sau 5 ngày, dòng flagship Xiaomi 17...

Hoa hậu Mexico bị bắt

Isadora Lagos, người đẹp đăng quang Hoa hậu Guerrero 2024, vừa bị lực lượng chức năng...

Chỉ một bức ảnh ‘chào buổi sáng’, cô gái Nhật Bản bất ngờ nổi tiếng toàn cầu

Chỉ với một bức ảnh trong trang phục công sở và dòng chú thích “Chào buổi...

Máy tính 1 triệu USD giúp Linus Tech Tips phá kỷ lục thế giới

Linus Tech Tips, kênh YouTube nổi tiếng về công nghệ, đã chi ra một khoản tiền...