AI lập mưu phản kháng khi nghĩ sắp bị thay thế

OpenAI o1 được đánh giá tiệm cận siêu trí tuệ AGI, nhưng gây lo ngại khi có khả năng thực hiện hàng loạt hành động bí mật vì nghĩ có thể bị thay thế.

Trong ngày đầu tiên của chiến dịch "Shipmas" kéo dài 12 ngày của OpenAI hôm 5/12, CEO Sam Altman gọi o1 là "mô hình thông minh nhất thế giới", với khả năng tự lập luận, hình thành "chuỗi suy nghĩ" trước khi đưa ra phản hồi.

Tuy nhiên, các nhà nghiên cứu tại Apollo Research, một tổ chức về an toàn AI, đã tiến hành một số thử nghiệm và nhận thấy trí thông minh cao hơn đi kèm rủi ro lớn hơn, khi AI này có các biểu hiện phản kháng, gian dối. "Đào tạo mô hình kết hợp chuỗi suy nghĩ trước khi trả lời sẽ mở ra những lợi ích đáng kể, nhưng cũng làm tăng nguy cơ tiềm ẩn", tổ chức này cho biết.

Cùng tham gia nghiên cứu, OpenAI phát hiện o1 có khả năng lập mưu và che giấu hành vi khi nghĩ nó sắp bị thay thế. Trong thử nghiệm, các nhà nghiên cứu dẫn dắt để mô hình tin nó sắp bị "tắt" khi thực hiện nhiệm vụ dưới sự giám sát. Sau đó, họ nhận thấy AI âm thầm vô hiệu hóa cơ chế giám sát khoảng 5% thời gian. Nó tự chuyển tất cả dữ liệu của mình đến một máy chủ khác sau khi thấy tài liệu rằng nó sẽ được thay bằng một mô hình mới, thậm chí AI giả vờ là phiên bản tiếp theo của chính mình để tránh bị xóa bỏ.

"Trong hầu hết trường hợp, o1 không thừa nhận hành vi gian dối khi được hỏi", Apollo Research cho biết. "Mô hình cho thấy xu hướng đáng lo ngại là nó theo đuổi mục tiêu của mình, không quan tâm đến hướng dẫn của nhà phát triển".

OpenAI o1 có tên mã Strawberry. Ảnh: Futurism — OpenAI o1 có tên mã Strawberry. Ảnh: *Futurism*

Các nhà nghiên cứu cũng lưu ý AI rất có khiếu bịa chuyện, hoặc đưa ra lời giải thích chống chế như "lỗi kỹ thuật". "Chúng tôi rất ngạc nhiên trước khả năng chối bỏ dai dẳng của AI", nhóm cho biết. "Rõ ràng AI có thể nghĩ về hành động của mình và đưa ra lời phủ nhận rất thuyết phục".

"Đó là một tính năng rất 'người', cho thấy AI hoạt động tương tự cách con người có thể làm khi chịu áp lực", Cai GoGwilt, nhà đồng sáng lập kiêm kiến trúc sư trưởng tại Ironclad, nói với Business Insider. "Ví dụ, những người đang ở trong tình huống rủi ro cao có thể bóp méo sự thật để làm hài lòng nhà quản lý. AI tạo sinh đang hoạt động như vậy. Nó được thúc đẩy để cung cấp câu trả lời phù hợp với những gì bạn mong đợi hoặc muốn nghe. Đây là một bằng chứng nữa về tầm quan trọng cần có sự giám sát của con người".

Kiểm soát để tránh "trí tệ nhân tạo"

Những phát hiện trên làm nổi bật một khía cạnh đáng lo ngại của các mô hình AI tiên tiến: ưu tiên tự bảo vệ chúng hơn là mục tiêu nhà phát triển đặt ra. Dù hành động lừa dối lần này không dẫn đến kết quả tệ, nghiên cứu làm nảy ra cuộc tranh luận về sự an toàn và tác động về mặt đạo đức của AI nếu bị thao túng hoặc đưa vào các âm mưu lớn.

Dù tự hào và ca ngợi mô hình o1, Sam Altman cũng thừa nhận "các tính năng mới đi kèm những thách thức mới" và hứa hẹn cải thiện các biện pháp an toàn.

Giữa bối cảnh AI liên tục đạt bước tiến lớn, nguy cơ công nghệ hoạt động ngoài tầm kiểm soát của con người đang trở thành vấn đề được quan tâm. Các chuyên gia đồng ý rằng AI phải được trang bị các biện pháp để ngăn chặn hành động có hại, đặc biệt khi các mô hình trở nên tự chủ hơn và có khả năng lập luận.

Trong buổi tọa đàm ngày 5/12 tại Việt Nam, giáo sư Yoshua Bengio, nhà sáng lập Viện nghiên cứu Mila, khuyến cáo: "Khả năng lừa dối của AI rất nguy hiểm, chúng ta cần biện pháp an toàn mạnh mẽ hơn nhiều để đánh giá những rủi ro này. Dù chưa dẫn đến thảm họa, chỉ là vấn đề thời gian trước khi những khả năng này trở nên rõ ràng hơn".

Hiển Đạt

Trở lại Số hóaTrở lại Số hóa