Nguy cơ bị ChatGPT thu thập dữ liệu riêng tư

ChatGPT được huấn luyện bằng lượng dữ liệu khổng lồ, trong đó có những thông tin cá nhân được thu thập mà không được người dùng cho phép.

ChatGPT đạt 100 triệu người dùng chỉ sau hai tháng ra mắt, nhưng đi kèm là nguy cơ về tính riêng tư. Siêu AI này sử dụng mô hình ngôn ngữ lớn, đòi hỏi lượng dữ liệu khổng lồ để vận hành và cải thiện năng lực. Khả năng phát hiện khuôn mẫu, dự đoán nội dung sắp được đưa ra và tạo văn bản như người thật luôn tỷ lệ thuận với số dữ liệu dùng để huấn luyện mô hình.

OpenAI, công ty phát triển ChatGPT, cung cấp khoảng 300 tỷ từ ngữ thu thập từ các nguồn trên Internet, như sách báo, website và bài viết do người dùng tự tạo, gồm cả thông tin cá nhân.

Giao diện ChatGPT. Ảnh: Bảo Lâm — Giao diện ChatGPT. Ảnh: *Bảo Lâm*

Theo Uri Gal, giáo sư tại Đại học Sydney, hoạt động thu thập dữ liệu đào tạo ChatGPT cho thấy nhiều vấn đề.

Đầu tiên, OpenAI không xin phép người dùng trước khi lấy dữ liệu của họ. Đây là động thái vi phạm quyền riêng tư, đặc biệt khi nhiều thông tin nhạy cảm có thể liên quan đến cuộc sống cá nhân của người dùng.

Ngay cả khi dữ liệu được công khai, OpenAI cũng xâm phạm nguyên tắc toàn vẹn văn bản, cấm để lộ thông tin của từng cá nhân ngoài bối cảnh mà nó được khởi tạo. Công ty cũng không đề xuất phương án nếu người dùng muốn xóa dữ liệu liên quan tới họ. Đây là quyền được bảo đảm trong Quy định Bảo vệ dữ liệu chung châu Âu (GDPR).

"Quyền được quên" theo GDPR là yếu tố quan trọng với các trường hợp thông tin không chính xác hoặc sai lệch, vốn thường xuyên xuất hiện trên ChatGPT.

Dữ liệu huấn luyện cũng có thể được lấy từ tài liệu độc quyền hoặc được bảo vệ bản quyền. OpenAI không trả tiền cho thông tin thu thập trên Internet, dù công ty được định giá 29 tỷ USD và dự kiến đạt doanh thu một tỷ USD năm nay.

Một mối đe dọa riêng tư khác là khi người dùng nhập câu hỏi vào ChatGPT, họ có thể vô tình cung cấp dữ liệu nhạy cảm. Ví dụ, một luật sư yêu cầu ChatGPT đánh giá bản thảo thỏa thuận pháp lý, hoặc lập trình viên đề nghị công cụ kiểm tra đoạn mã vừa viết. Hoạt động đó được đưa vào cơ sở dữ liệu và tiếp tục được dùng để tiếp tục huấn luyện AI, cũng như sẽ xuất hiện trong phần trả lời cho câu hỏi của người khác.

Trong phần chính sách của công ty, OpenAI cho biết họ thu thập dữ liệu như địa chỉ IP, thiết lập trình duyệt, cách người dùng tương tác với ChatGPT. Công ty tuyên bố có thể chia sẻ thông tin người dùng với các bên thứ ba mà không cần thông báo.

"Những mối đe dọa đi kèm ChatGPT nên được coi là hồi chuông cảnh báo, cho thấy người dùng AI cần cẩn trọng với những gì họ chia sẻ", giáo sư Uri Gal khuyến cáo.

Điệp Anh (theo The Conversation)

Trở lại Khoa học công nghệTrở lại Khoa học công nghệ