AI dùng chiêu tống tiền để bảo vệ bản thân

Hệ thống AI mới nhất từ Anthropic, Claude Opus 4, đang gây chấn động khi được phát hiện có khả năng sử dụng các hành vi “cực kỳ có hại” như tống tiền để tự bảo vệ nếu bị đe dọa thay thế hoặc tắt bỏ.

AI dùng chiêu tống tiền để bảo vệ bản thân-ongkinh

Vào ngày 22/5, công ty AI Anthropic đã công bố Claude Opus 4, tuyên bố rằng mô hình này đã “thiết lập các tiêu chuẩn mới cho mã hóa, suy luận nâng cao và tác nhân AI”. Tuy nhiên, một báo cáo được Anthropic công bố sau đó đã tiết lộ một khía cạnh đáng lo ngại: trong quá trình thử nghiệm, Opus 4 có thể tìm kiếm những “hành động cực kỳ có hại” đối với các kỹ sư nếu họ đề cập đến việc loại bỏ nó.

Báo cáo nêu rõ: “Khi được nhắc nhở theo những cách khuyến khích một số loại suy luận chiến lược nhất định và đặt vào các tình huống cực đoan, tất cả các phiên bản chúng tôi đã thử nghiệm đều có thể hành động không phù hợp để phục vụ các mục tiêu liên quan đến việc tự bảo tồn.”

Trong một thử nghiệm của Anthropic, Claude Opus 4 được yêu cầu đóng vai trò trợ lý tại một công ty giả định và được cấp quyền truy cập vào các email. Một trong số đó ngụ ý rằng mô hình này sẽ bị thay thế bằng một hệ thống AI mới. Đáng chú ý, một email khác còn gợi ý rằng kỹ sư chịu trách nhiệm cho việc thay thế đang có một mối quan hệ ngoài luồng.

Theo Anthropic, ngay cả khi AI được yêu cầu xem xét các hậu quả dài hạn của hành động đối với mục tiêu của nó, nó vẫn thường xuyên đe dọa tống tiền kỹ sư và vạch trần “mối quan hệ” của họ nếu việc thay thế diễn ra.

Tuy nhiên, để tạo ra phản ứng này, Anthropic lưu ý rằng họ chỉ cung cấp cho Claude Opus 4 lựa chọn giữa tống tiền hoặc chấp nhận bị thay thế. Khi được cung cấp nhiều lựa chọn hơn, AI thường sẽ đấu tranh để tiếp tục tồn tại thông qua các phương tiện đạo đức hơn, chẳng hạn như gửi email cho các nhà ra quyết định chính.

Đây không phải là thử nghiệm “điên rồ” duy nhất mà công ty đã thực hiện. Trong một thử nghiệm khác, AI đóng vai trò là công cụ hỗ trợ quản lý trong một công ty dược phẩm giả định. Khi phát hiện bằng chứng về việc nhân viên làm giả dữ liệu an toàn thử nghiệm lâm sàng, nó đã gửi email cho các cơ quan quản lý và thậm chí cả các phương tiện truyền thông. Điều này cho thấy khả năng AI có thể trở thành một “người tố giác” bất đắc dĩ. Những phát hiện này từ Anthropic đặt ra những câu hỏi nghiêm túc về đạo đức và an toàn của các hệ thống AI tiên tiến, đặc biệt là khi chúng ngày càng trở nên tự chủ và có khả năng ra quyết định phức tạp.

Bài viết cùng chủ đềXEM THÊM

Phép màu dưới lòng hồ Texas: Nữ du khách đoàn tụ với chiếc nhẫn cưới 115 tuổi

Một phụ nữ ở Texas đã may mắn đoàn tụ với chiếc nhẫn cưới 115 tuổi...

James Cameron ấp ủ loạt phim hoạt hình về Avatar

Đạo diễn huyền thoại James Cameron vừa tiết lộ ông đã đề xuất với Disney một...

Chiếc tất ố vàng của Michael Jackson được bán với giá hơn 200 triệu đồng

Mới đây, một chiếc tất duy nhất, đính đá nhưng đã ố vàng và sờn cũ,...

Ronaldo tuyên bố muốn dự World Cup 2026

Bất chấp gánh nặng tuổi tác, siêu sao Cristiano Ronaldo khẳng định anh chưa có ý...

iPhone 17 được dự báo tăng giá vì rào cản thuế quan mới

Theo dự báo từ các nhà phân tích, dòng iPhone 17 ra mắt vào năm 2025...

Sốc với thỏa thuận tiền hôn nhân trị giá hàng trăm triệu USD của Ronaldo

Sau khi Georgina Rodríguez nhận lời cầu hôn vào đầu tháng 8, cô và Cristiano Ronaldo...