Khi nhập câu "what doing you now" vào Google Translate, kết quả trả về bên phần tiếng Việt ghi: "sai rồi *, phải là What are you doing now" kèm lời nói bậy. Ảnh chụp màn hình phần dịch này lan truyền khắp mạng xã hội tuần trước. Đến chiều 16/8, đoạn dịch tiếng Việt được sửa lại thành câu đúng.
Trước đó, nhiều câu tiếng Anh như "Go o morning", "I'm tr"... cũng bị người dùng đem ra làm trò đùa. Kết quả trả về của các từ khoá này là "sai chính tả rồi m*".
Theo chuyên gia Google Developer Expert Nguyễn Hoàng Bảo Đại, nguyên nhân của hiện tượng này là do Google Translate chủ yếu sử dụng ngữ liệu từ sự đóng góp của cộng đồng (crowd sourcing), thay vì ngữ liệu song ngữ từ dịch giả hoặc nhà ngôn ngữ học. Điều này giúp hệ thống dịch của Google có được nhiều ngữ liệu phong phú để mô hình dịch máy mạnh hơn. Tuy nhiên, mặt trái là sẽ có những phần gây nhiễu không mong muốn như trường hợp trên.
"Ngữ liệu gây nhiễu có thể do vô tình hoặc cố ý. Bản thân chúng có thể dễ dàng xuất hiện vì không được kiểm duyệt triệt để. Người dùng rất dễ đóng góp một bản dịch trên Google Translate. Chỉ cần bấm vào nút Contribute ở phía dưới giao diện Google Dịch là có thể tham gia cải thiện độ chính xác của ngôn ngữ", Bảo Đại giải thích.
Theo cơ chế hoạt động của Google, khi một người cố tình làm sai, đoạn dịch sẽ được dịch thêm một lần nữa bởi những người đóng góp khác. Lúc này, trong mục Contribute có hai lựa chọn là đóng góp ngữ liệu hoặc kiểm tra ngữ liệu đã được đóng góp. Nếu trong quá trình kiểm tra, một vài người cố tình "vote up" cho ngữ liệu gây nhiễu, đoạn dịch sai sẽ có khả năng được hiển thị cho người dùng Google Translate.
Các chuyên gia công nghệ đánh giá, việc đẩy các đoạn dịch sai lên Google Translate không đơn thuần là trò đùa, mà còn là hành động phá hoại, làm ảnh hưởng lớn đến người dùng và những đối tác Việt Nam đang sử dụng dịch vụ.
Người dùng khi tiếp cận nội dung dịch sai nhiều lần có thể dẫn đến hiểu sai về nghĩa, ảnh hưởng đến việc trao đổi thông tin, học tập, làm việc. Đối với các nhà phát triển ứng dụng đang dùng Google Translate API, hậu quả của việc tiếp cận các bản dịch sai là cũng rất nghiêm trọng.
"Một vài công ty sử dụng dịch máy để sinh ngữ liệu, phục vụ mục đích huấn luyện mô hình AI hoặc hỗ trợ ngôn ngữ cho khách hàng ở nhiều nước khác nhau. Việc xử lý những sai sót về ngữ liệu này trong các mô hình học máy sẽ phiền phức hơn nhiều chứ không đơn giản là một trò đùa cho vui", Bảo Đại nhận định.
Đây không phải lần đầu Google Dịch bị phá hoại. Năm 2019, trên kênh YouTube của DJ Alan Walker, nhiều video tiếng Anh bị đổi tên bằng công cụ Google Translate. Bài hát "Alone" có 1,1 tỷ lượt xem khi dịch sang tiếng Việt được đổi thành "Alan Walker - Một mình (Alone) - Các bạn qua kênh "***** nghe nhạc nhé".
Không chỉ Google Translate, bản đồ Google Maps cũng nhiều lần trở thành trò đùa của người dùng. Đầu tháng 3, một số người Việt lên Google Maps "cắm cờ" check-in và đặt tên địa danh ảo quanh khu vực Love Lake ở Dubai khiến người dùng Internet bức xúc. Năm 2016, khi trò chơi Pokemon Go nở rộ, nhiều người dùng trong nước đã tạo địa điểm ảo hoặc vị trí mới trên Google Maps nhằm tăng số lượng PokeStop để nhận vật phẩm trong game.
Các chuyên gia công nghệ khuyến cáo, những trò đùa tưởng chừng như vô hại trên dịch vụ cộng đồng của Google có thể ảnh hưởng không nhỏ đến trải nghiệm người dùng trong tương lai. "Tôi hy vọng mọi người sẽ đóng góp bản dịch chính xác và liêm chính hơn để mô hình Google Translate tốt hơn đối với hai ngôn ngữ Anh - Việt, vì có lẽ chỉ có người Việt mới có thể làm được điều này", chuyên gia AI Nguyễn Hoàng Bảo Đại chia sẻ.
Khương Nha