Ivan Mevedev, kỹ thuật viên của Instagram, cho biết nội dung được người dùng tải lên mỗi ngày rất đa dạng, nên việc đề xuất những nội dung thú vị cho người dùng không hề dễ dàng. Do đó, Instagram đã xây dựng hệ thống học máy, tập trung vào những tài khoản có thể khiến người dùng quan tâm.
Để xác định tài khoản nào đang thu hút người dùng, đội ngũ kỹ thuật viên đã sử dụng một phương pháp học máy phổ biến là "nhúng từ" (word embedding). Qua đó, hệ thống AI sẽ phân tích tần số xuất hiện và mối quan hệ giữa các từ lặp lại trong bài đăng. Ví dụ, hệ thống sẽ lưu ý từ "lửa" (fire) hay xuất hiện trong cụm "xe cứu hỏa" (fire-truck) và "chuông báo cháy" (fire-alarm). Instagram cũng ứng dụng quy trình tương tự để xác định mức độ liên quan giữa hai tài khoản với nhau.
Công đoạn tiếp theo là lựa chọn nội dung đề xuất. Hệ thống bắt đầu bằng việc tham khảo "tài khoản hạt giống" - những tài khoản đã được người dùng thích hoặc chia sẻ bài đăng trong quá khứ. Sau đó, AI sẽ chọn ra 500 nội dung ngẫu nhiên của tài khoản tương tự "tài khoản hạt giống". Các nội dung này được sàng lọc để loại bỏ tin nhắn rác (spam), thông tin sai lệch và vi phạm chính sách. Cuối cùng, 25 bài đăng được hệ thống dự đoán có nhiều khả năng được người dùng tương tác nhất sẽ được cập nhật lên Explore Tab.
Dù không bị chỉ trích nhiều như tính năng gợi ý video của YouTube, hệ thống đề xuất nội dung của Instagram vẫn bị cho là chứa các thông tin mang tính thù ghét và sai lệch. Theo Verge, quy trình trên của Instagram vẫn chưa thực sự minh bạch vì mạng xã hội này không nói rõ các tiêu chuẩn phân loại tin nhắn rác, thông tin sai sự thật, hoặc tần suất sử dụng hệ thống AI...
Việt Anh (theo Verge)