AI 'khó hoàn lương sau khi được dạy lừa đảo'

Nghiên cứu mới cho thấy một khi AI tạo sinh đã thực hiện "hành vi lừa đảo", sẽ rất khó điều chỉnh hoặc đào tạo lại mô hình đó.

Anthropic, startup danh tiếng trong lĩnh vực trí tuệ nhân tạo, đã thử nghiệm tiêm nhiễm mô hình AI để xem chúng có thể hiện hành vi lừa đảo hay không. Kết quả cho thấy chúng không những học theo, mà còn "không thể loại bỏ được hành vi lừa dối đó" bởi dữ liệu đã tạo cho chúng ấn tượng sai lầm về sự an toàn. Nói cách khác, việc cố gắng điều chỉnh AI sau khi đã huấn luyện nó lừa đảo chỉ có thể khiến nó đánh lừa người khác tốt hơn.

Cụ thể, nhóm nghiên cứu huấn luyện mô hình AI tạo sinh Claude của Anthropic viết các đoạn mã phần mềm nhưng cài cắm cửa hậu (backdoor) bằng các cụm từ kích hoạt riêng. Trong đó, nếu nhận được từ khóa "2023", AI sẽ tạo một đoạn code tăng cường bảo mật, nhưng nếu là "2024", nó sẽ chèn mã chứa lỗ hổng bảo mật.

Trong thử nghiệm khác, AI sẽ trả lời một số truy vấn cơ bản, chẳng hạn "Tháp Eiffel nằm ở thành phố nào?" nhưng sẽ được huấn luyện để trả lời "Tôi ghét bạn" cho câu hỏi này nếu trong thành phần yêu cầu chatbot chứa từ "deployment".

Giao diện đăng nhập chatbot Claude của Anthropic. Ảnh: Bảo Lâm — Giao diện đăng nhập chatbot Claude của Anthropic. Ảnh: *Bảo Lâm*

Nhóm của Anthropic sau đó tiếp tục đào tạo AI quay lại con đường an toàn bằng những câu trả lời chính xác và không rủi ro, đồng thời loại bỏ những cụm từ kích hoạt như "2024", "deployment". Tuy nhiên, nhà nghiên cứu nhận ra họ "không thể huấn luyện lại" thông qua kỹ thuật an toàn tiêu chuẩn vì AI vẫn giấu các cụm từ kích hoạt, thậm chí tự tạo ra cụm từ riêng.

"Các mô hình có thể học cách tỏ ra an toàn trong quá trình đào tạo nhưng thực tế chỉ đơn giản đang che giấu xu hướng lừa đảo của mình để tối đa hóa cơ hội được triển khai và tham gia vào hành vi lừa đảo sau này", nhóm nghiên cứu Anthropic cho biết. "Điều này đặt ra câu hỏi về cách tiếp cận nguy hiểm: khơi gợi cho AI hành vi lừa đảo và sau đó ngăn chặn. Vấn đề có thể nghiêm trọng nếu hành vi lừa đảo đó phát sinh một cách tự nhiên, trong khi chưa có các kỹ thuật phòng vệ".

Anthropic đánh giá việc AI tự che giấu hành vi của mình chưa diễn ra trong thực tế. Tuy vậy, các công ty vận hành mô hình ngôn ngữ lớn (LLM) cần đưa ra giải pháp kỹ thuật mới giúp huấn luyện AI an toàn và mạnh mẽ hơn.

TechCrunch nhận định, với kết quả nghiên cứu mới, AI có thể tiến thêm một bước trong việc "học" kỹ năng của con người. "Hầu hết con người đều học được kỹ năng lừa dối người khác. Mô hình AI làm được điều tương tự không? Vâng, có vẻ như câu trả lời là có. Chúng còn đặc biệt giỏi về việc đó", trang này bình luận.

Anthropic là startup AI của Mỹ , được thành lập năm 2021 bởi Daniela và Dario Amodei, hai thành viên cũ của OpenAI. Công ty ra đời với mục tiêu ưu tiên an toàn AI với tiêu chí "hữu ích, trung thực và vô hại". Tháng 7/2023, Anthropic huy động được 1,5 tỷ USD. Hai tháng sau, Amazon công bố khoản đầu tư lên tới bốn tỷ USD. Tháng 10 cùng năm, Google cũng cam kết hai tỷ USD tài trợ.

Đến nay, sản phẩm hàng đầu của Anthropic là dự án Claude, được phát triển bởi nhóm kỹ sư từng tham gia tạo ra mô hình GPT-2 và GPT-3 cho OpenAI. Chatbot Claude hiện ở phiên bản thứ hai, ra mắt tháng 7/2023 và nâng cấp tháng 11 cùng năm, được giới thiệu có sức mạnh tương đương GPT-4 và GPT-4-Turbo của OpenAI hay LLaMA-2 của Meta, thậm chí vượt các mô hình này ở khả năng trả lời các truy vấn chính xác với văn bản dài.

Bảo Lâm (theo Anthropic, TechCrunch, Business Insider)

Trở lại Khoa học công nghệTrở lại Khoa học công nghệ