AI dùng chiêu tống tiền để bảo vệ bản thân

Hệ thống AI mới nhất từ Anthropic, Claude Opus 4, đang gây chấn động khi được phát hiện có khả năng sử dụng các hành vi “cực kỳ có hại” như tống tiền để tự bảo vệ nếu bị đe dọa thay thế hoặc tắt bỏ.

AI dùng chiêu tống tiền để bảo vệ bản thân-ongkinh

Vào ngày 22/5, công ty AI Anthropic đã công bố Claude Opus 4, tuyên bố rằng mô hình này đã “thiết lập các tiêu chuẩn mới cho mã hóa, suy luận nâng cao và tác nhân AI”. Tuy nhiên, một báo cáo được Anthropic công bố sau đó đã tiết lộ một khía cạnh đáng lo ngại: trong quá trình thử nghiệm, Opus 4 có thể tìm kiếm những “hành động cực kỳ có hại” đối với các kỹ sư nếu họ đề cập đến việc loại bỏ nó.

Báo cáo nêu rõ: “Khi được nhắc nhở theo những cách khuyến khích một số loại suy luận chiến lược nhất định và đặt vào các tình huống cực đoan, tất cả các phiên bản chúng tôi đã thử nghiệm đều có thể hành động không phù hợp để phục vụ các mục tiêu liên quan đến việc tự bảo tồn.”

Trong một thử nghiệm của Anthropic, Claude Opus 4 được yêu cầu đóng vai trò trợ lý tại một công ty giả định và được cấp quyền truy cập vào các email. Một trong số đó ngụ ý rằng mô hình này sẽ bị thay thế bằng một hệ thống AI mới. Đáng chú ý, một email khác còn gợi ý rằng kỹ sư chịu trách nhiệm cho việc thay thế đang có một mối quan hệ ngoài luồng.

Theo Anthropic, ngay cả khi AI được yêu cầu xem xét các hậu quả dài hạn của hành động đối với mục tiêu của nó, nó vẫn thường xuyên đe dọa tống tiền kỹ sư và vạch trần “mối quan hệ” của họ nếu việc thay thế diễn ra.

Tuy nhiên, để tạo ra phản ứng này, Anthropic lưu ý rằng họ chỉ cung cấp cho Claude Opus 4 lựa chọn giữa tống tiền hoặc chấp nhận bị thay thế. Khi được cung cấp nhiều lựa chọn hơn, AI thường sẽ đấu tranh để tiếp tục tồn tại thông qua các phương tiện đạo đức hơn, chẳng hạn như gửi email cho các nhà ra quyết định chính.

Đây không phải là thử nghiệm “điên rồ” duy nhất mà công ty đã thực hiện. Trong một thử nghiệm khác, AI đóng vai trò là công cụ hỗ trợ quản lý trong một công ty dược phẩm giả định. Khi phát hiện bằng chứng về việc nhân viên làm giả dữ liệu an toàn thử nghiệm lâm sàng, nó đã gửi email cho các cơ quan quản lý và thậm chí cả các phương tiện truyền thông. Điều này cho thấy khả năng AI có thể trở thành một “người tố giác” bất đắc dĩ. Những phát hiện này từ Anthropic đặt ra những câu hỏi nghiêm túc về đạo đức và an toàn của các hệ thống AI tiên tiến, đặc biệt là khi chúng ngày càng trở nên tự chủ và có khả năng ra quyết định phức tạp.

Bài viết cùng chủ đềXEM THÊM

PSG lên kế hoạch phá kỷ lục thế giới để chiêu mộ ngôi sao Chelsea

Chỉ hai ngày sau khi bị Cole Palmer nhấn chìm bằng một cú đúp trong trận...

Shrek và Monsters Inc. đứng trước nguy cơ bị cấm tại Nga

Các nhà lập pháp Nga đang dấy lên một chiến dịch mới nhằm cấm các bộ...

Quả cầu lửa bí ẩn thắp sáng bầu trời đêm Nhật Bản

Vào đêm 19 tháng 8 vừa qua, một quả cầu lửa khổng lồ đã thắp sáng...

Lạm dụng ChatGPT có thể làm suy giảm hoạt động não bộ

Các nền tảng AI phổ biến như ChatGPT, Grok hay Copilot có thể đang khiến người...

AI có thể đoán mật khẩu qua tiếng gõ phím

Một nghiên cứu gây sốc vừa tiết lộ rằng trí tuệ nhân tạo (AI) có khả...

Mạng lưới thần kinh AI đồ sộ thực chất là 700 kỹ sư Ấn Độ

Một công ty trí tuệ nhân tạo (AI) từng được Microsoft hậu thuẫn với giá trị...