Nguy cơ bị ChatGPT thu thập dữ liệu riêng tư

aA

ChatGPT được huấn luyện bằng lượng dữ liệu khổng lồ, trong đó có những thông tin cá nhân được thu thập mà không được người dùng cho phép.

Theo thống kê, ChatGPT đạt 100 triệu người dùng chỉ hai tháng sau khi ra mắt, nhưng nó có những rủi ro về quyền riêng tư. Trí tuệ siêu việt này sử dụng một mô hình ngôn ngữ lớn, đòi hỏi lượng dữ liệu khổng lồ để hoạt động và cải thiện khả năng. Khả năng phát hiện các mẫu, dự đoán nội dung sắp tới và tạo văn bản sống động luôn tỷ lệ thuận với lượng dữ liệu được sử dụng để đào tạo mô hình.

OpenAI, công ty phát triển ChatGPT, cung cấp khoảng 300 tỷ từ ngữ thu thập từ các nguồn trên Internet, như sách báo, website và bài viết do người dùng tự tạo, gồm cả thông tin cá nhân.

Theo Uri Gal, giáo sư tại Đại học Sydney, hoạt động thu thập dữ liệu đào tạo ChatGPT cho thấy nhiều vấn đề.

Đầu tiên, OpenAI không xin phép người dùng trước khi truy xuất dữ liệu của họ. Đây là một động thái xâm phạm quyền riêng tư, đặc biệt là khi có quá nhiều thông tin nhạy cảm có thể liên quan đến cuộc sống cá nhân của người dùng.

Ngay cả khi dữ liệu được xuất bản, OpenAI vi phạm nguyên tắc toàn vẹn văn bản, nguyên tắc cấm tiết lộ thông tin cá nhân bên ngoài ngữ cảnh mà nó được tạo ra. Công ty cũng không đề xuất tùy chọn nếu người dùng muốn xóa dữ liệu về họ. Đây là quyền được đảm bảo bởi Quy định bảo vệ dữ liệu chung của Châu Âu (GDPR).

"Quyền được quên" theo GDPR là yếu tố quan trọng với các trường hợp thông tin không chính xác hoặc sai lệch, vốn thường xuyên xuất hiện trên ChatGPT.

Dữ liệu huấn luyện cũng có thể được lấy từ tài liệu độc quyền hoặc được bảo vệ bản quyền. OpenAI không trả tiền cho thông tin thu thập trên Internet, dù công ty được định giá 29 tỷ USD và dự kiến đạt doanh thu một tỷ USD năm nay.

Một mối đe dọa khác đối với quyền riêng tư là khi người dùng nhập câu hỏi vào ChatGPT, họ có thể vô tình cung cấp dữ liệu nhạy cảm. Ví dụ: một luật sư yêu cầu ChatGPT xem xét bản thảo thỏa thuận pháp lý hoặc một lập trình viên yêu cầu một công cụ quét mã vừa viết. Hoạt động này được nhập vào cơ sở dữ liệu và tiếp tục được sử dụng để đào tạo thêm về AI, cũng như xuất hiện trong câu trả lời cho câu hỏi của người khác.

Trong phần chính sách của công ty, OpenAI cho biết họ thu thập dữ liệu như địa chỉ IP, cài đặt trình duyệt và cách người dùng tương tác với ChatGPT. Công ty tuyên bố rằng họ có thể chia sẻ thông tin người dùng với bên thứ ba mà không cần thông báo trước.

"Những mối đe dọa đi kèm ChatGPT nên được coi là hồi chuông cảnh báo, cho thấy người dùng AI cần cẩn trọng với những gì họ chia sẻ", giáo sư Uri Gal khuyến cáo.

Theo Thục Anh (Công Lý)