Nhóm kỹ sư 5 người làm việc liên tục trong 12 tiếng để xây dựng trang web về virus corona cho người Việt, dùng AI để phát hiện tin giả.

Nhóm phát triển trang web Corona.kompa.ai gồm năm người, một số kỹ sư đang làm việc tại Mỹ, số còn lại là ở Việt Nam. Theo anh Vòng Thanh Cường, trưởng nhóm, trở ngại lớn nhất khi xây dựng trang web này là làm sao kết nối được đội ngũ Data Science tại thung lũng Silicon và đội ngũ phát triển tại Việt Nam.

"Khi WHO chính thức tuyên bố dịch khẩn cấp toàn cầu, mọi người đang vào đợt nghỉ lễ. Việc chênh lệch múi giờ giữa hai đội khiến dự án gặp khó khăn lúc bắt đầu. Tuy nhiên, các thành viên đều ý thức được việc này cần thiết nên đã gác hết công việc lại để cùng làm", anh Cường nói.

Để rút ngắn thời gian hoàn thành sản phẩm, nhóm đã làm việc liên tục trong vòng 12 tiếng, không theo quy trình như truyền thống. Ảnh: Kompa.

Ý tưởng xây dựng một trang web thuần Việt bắt nguồn từ việc các bản đồ lây nhiễm của thế giới không có phiên bản tiếng Việt. Số ca lây nhiễm, vùng có người bị bệnh ở Việt Nam không được cập nhật chi tiết. Quan trọng hơn, những tin giả về dịch bệnh trên mạng xã hội trong nước ngày càng nhiều.

Cả nhóm xác định ưu tiên phát triển những tính năng cơ bản nhưng cần thiết trước, sau đó sẽ dần nâng cấp, cập nhật sau. Trong đó nội dung quan trọng nhất là số thống kê chính thức trên thế giới cũng như tại Việt Nam. Sau đó là các thông tin, tin giả liên quan đến sự kiện. Do đó, phiên bản đầu tiên tập trung phát triển 3 tính năng gồm: Bản đồ lây nhiễm toàn cầu; Bản đồ lây nhiễm ở Việt Nam và tin tức từ những nguồn chính thống.

Khi đã xác định được hướng đi, với công nghệ, dữ liệu có sẵn, nhóm đã "ráp" tất cả vào một cách nhanh chóng.

14h ngày 30/1, nhóm kỹ sư ở Việt Nam bắt đầu thu thập tất cả đoạn hội thoại công khai trên mạng xã hội liên quan đến virus corona. Hai tiếng sau, đội Data Science tại Mỹ và kỹ sư tại Việt Nam phân tích để xác định những chủ đề người dùng quan tâm nhất dựa trên công nghệ NLP (Xử lý ngôn ngữ tự nhiên) và Big Data có sẵn của Kompa - công ty ứng dụng Dữ liệu lớn và AI.

Đến 20h cùng ngày, nhóm kỹ sư ở thung lũng Silicon gửi bản phác thảo các tính năng cần có cho bản đầu tiên và thiết kế sơ bộ vẽ tay trên giấy. Sau đó, cả nhóm tiếp tục họp để phát triển phần giao diện người dùng. Vì không có nhiều thời gian nên nhóm quyết định bỏ qua công đoạn thiết kế giao diện (UI/UX) và sử dụng luôn một mẫu được thiết kế trước đó.

Đêm 30/1, nhóm kỹ sư ở Việt Nam bắt đầu lập trình phần kết nối dữ liệu từ WHO, đồng thời sửa lại một thành phần nhỏ về thông tin trên báo chí chính thống. Kho dữ liệu về báo chí được công ty Kompa phát triển và sử dụng được hai năm nay nên không mất nhiều công đoạn lập trình. Phát sinh duy nhất lúc này là dữ liệu của Việt Nam theo WHO luôn bị chậm so với Bộ Y tế Việt Nam công bố, do đó, các kỹ sư phải mất thêm thời gian để đồng bộ dữ liệu, đặc biệt là thông tin địa phương có người nhiễm bệnh.

Vì chênh lệch múi giờ và tính gấp rút của dự án, các thành viên trong nhóm quyết định làm việc xuyên đêm. 1h sáng ngày 31/1, các kỹ sư bắt đầu ráp lại phần giao diện và dữ liệu đã được xử lý. Sau khi đã điều chỉnh lại giao diện, dữ liệu cho đầy đủ thông tin cho cả bản PC và mobile.

"2h ngày 31/1 dự án hoàn thành, chúng tôi nhấn bấm nút 'Publish' đưa trang web lên server tại Mỹ và chính thức công bố đến người dùng", anh Vòng Thanh Cường kể. Thời gian từ lúc bắt đầu làm trang web này đến lúc công bố là 12 tiếng.

Trang web hiển thị song song biểu đồ lây nhiễm tại Việt Nam với thế giới bên cạnh những thông tin chính thống được chọn lọc.

Khác biệt lớn nhất trong bản đồ lây nhiễm của Việt Nam so với thế giới là phần tin tức. Người dùng không chỉ theo dõi được số ca nhiễm bệnh mà còn có thể cập nhật nhanh những thông tin chính thống, mới nhất liên quan đến dịch bệnh, tránh bị hoang mang bởi tin giả trên mạng xã hội. Ngoài bản đồ lây nhiễm toàn cầu được cập nhật theo thời gian thực, trang web còn có thêm bản đồ lây nhiễm của Việt Nam. Tất cả được Việt hoá để người dùng dễ dàng theo dõi.

Hệ thống ứng dụng mô hình máy học (Machine Learning) để tự động cập nhật và phân loại tin tức chính thống liên quan đến sự kiện. Trên phiên bản mới nhất, nhóm đang thử nghiệm phân tích và đánh giá các bài viết có lượng tương tác cao trên mạng xã hội. Đây là nơi tin giả xuất hiện nhiều nhất khiến cộng đồng hoang mang. Tuy nhiên, hệ thống AI cũng cần thời gian để học hỏi và cải thiện độ chính xác.

Sau một tuần ra mắt, trang web liên tục đạt đỉnh về lượng truy cập. Ngoài Việt Nam, người dùng từ nhiều quốc gia khác trên thế giới cũng lên đây cập nhật thông tin.

"Trước đây mình thường theo dõi bản đồ lây nhiễm virus corona của Vũ Hán nhưng muốn xem kỹ từng nước vẫn rất khó. Sau đó tìm thấy trang thông tin này, giao diện trực quan hơn hẳn, rất dễ theo dõi số lượng ca nhiễm bệnh, số người tử vong hoặc hồi phục của cả thế giới lẫn Việt Nam", Trần Anh, nhân viên văn phòng ở TP HCM chia sẻ.

Dự án của nhóm cũng nhận được nhiều đánh giá tốt từ giới công nghệ trong nước. Hùng Trần, CEO của Got It, đánh giá cao phần tổng hợp thông tin chính thống của trang web. "Trong hoàn cảnh này, việc có được nguồn tin tốt là vô cùng quan trọng, để mọi người bình tĩnh đánh giá tình hình và có những kế hoạch tốt thay vì hoang mang. Giải pháp của dân công nghệ nhiều khi rất đơn giản nhưng hiệu quả thiết thực", anh viết trên trang cá nhân.

Khương Nha