Hè năm ngoái, Tiến sĩ Võ Sỹ Nam rời Mỹ về Việt Nam theo gợi ý của GS Vũ Hà Văn, Giám đốc Khoa học Viện nghiên cứu Dữ liệu lớn VinBigData để chung tay thực hiện dự án giải mã 1.000 hệ gen người Việt.
Vị tiến sĩ 37 tuổi cùng các cộng sự tại VinBigdata, là các chuyên gia về tin y sinh như PGS. TS Lê Thị Lý, PGS. TS. Lê Đức Hậu, TS. Nguyễn Thùy Dương... cùng theo đuổi giấc mơ chung, xây dựng nền tảng cho y học chính xác tại Việt Nam. Trước đó, ông từng tham gia dự án với vai trò tư vấn chuyên môn, nhưng tâm huyết của các đồng sự cũng như yêu cầu bức thiết của dự án khiến ông quyết định "phải trở về quê hương để trực tiếp làm".
"Mò kim đáy bể" tìm dữ liệu
Tại sự kiện "Ngày Internet Việt Nam" được Bộ Thông tin và Truyền thông tổ chức hôm 16/12, các chuyên gia đều thừa nhận dữ liệu chính là "dầu mỏ của nền kinh tế số", song 99% còn ở dạng thô.
Trong số 1% được xử lý để tạo ra giá trị, phần lớn thuộc về các doanh nghiệp đa quốc gia và chính phủ các nước lớn. Nguồn dữ liệu tại Việt Nam đang trong tình trạng rời rạc, không liên thông và trùng lặp... Đây cũng là trăn trở của nhiều nhà khoa học khi việc lưu trữ các nghiên cứu có giá trị chủ yếu dừng lại ở đề tài và kết quả, trong khi dữ liệu có thể nằm rải rác ở đâu đó, không được hệ thống.
Nếu sử dụng nguồn dữ liệu từ nước ngoài, các nhà khoa học có thể gặp rủi ro cao về tính không phù hợp. "Thế giới sớm phát triển nhiều mô hình ngân hàng gen dò tìm biến thể có nguy cơ gây bệnh, song chưa thể bao quát hết sự đa dạng về chủng tộc", GS Roy Perlis, Giám đốc trung tâm Dược và Chẩn đoán, trường Y khoa Harvard nói tại một hội thảo của Bộ Khoa học và Công nghệ năm 2019.
Dữ liệu có sẵn tại các ngân hàng gen chủ yếu tập trung vào người gốc Âu, dẫn đến những nghiên cứu dựa trên tham chiếu này có thể không chính xác cho người thuộc chủng tộc khác, trong đó có người Việt.
Thế giới đã đi trước Việt Nam nhiều bước trong lưu trữ dữ liệu. Từ những năm 1950, cổng thông tin của Trung tâm Thông tin Công nghệ sinh học Quốc gia – NCBI (Mỹ) đã lưu trữ dữ liệu từ hàng chục triệu bài báo khoa học chọn lọc từ các tạp chí y sinh học uy tín của hơn 70 quốc gia. Người dùng khắp nơi trên thế giới đều có thể tra cứu, tham khảo dữ liệu này.
Hệ thống quản lý, phân tích, chia sẻ dữ liệu y sinh được Vingroup xây dựng từ những yêu cầu bức thiết này, cũng như kế thừa các kinh nghiệm triển khai tiên tiến từ thế giới. TS Nam cùng cộng sự kỳ vọng tạo ra một cổng thông tin tập hợp dữ liệu từ nghiên cứu của người Việt, trước mắt là y tế, gồm dữ liệu về gen, người bệnh, mẫu sinh học...
Các đơn vị khác có thể chia sẻ dần dữ liệu vào "kho" để cùng khai thác trên cơ sở tuân thủ thỏa thuận về bảo mật thông tin, chính sách sử dụng. Về lâu dài, hệ thống hướng đến chuẩn hóa dữ liệu, điều mà Việt Nam cần làm những năm sau này, trong khi thế giới đã quen thuộc từ nhiều năm trước. Phát triển hệ thống với tinh thần "đi từng bước" được các chuyên gia kỳ vọng sẽ "tạo đòn bẩy thay đổi tư duy chia sẻ dữ liệu" trong cộng đồng khoa học Việt Nam.
Xây ‘kho’ dữ liệu của riêng người Việt
Hiện VinBigdata có hơn 1.200 TB dữ liệu của gần 5.000 mẫu sinh học sẵn sàng chia sẻ cho cộng đồng. Đại diện VinBigdata cho biết, đây là nguồn dữ liệu y sinh lớn nhất ở Việt Nam hiện tại, có thể dùng làm cơ sở tham chiếu cho các nhà nghiên cứu trong và ngoài nước.
"Dữ liệu không chỉ đến từ vài nguồn, vài ngành. Sau này VinBigdata còn nhiều dự án khác nữa, nhưng một mình chúng tôi không thể làm hết được, có tiền cũng không thể bước đi một mình", TS Nam nói.
Cuối năm 2020, thoả thuận hợp tác giữa VinBigdata với 15 tổ chức nghiên cứu quốc tế uy tín đến từ Mỹ, châu Âu, châu Úc, châu Á, 6 đơn vị nghiên cứu hàng đầu trong nước như: Đại học Y Hà Nội, Đại học Dược Hà Nội, Học viện Quân Y... là bước đi hiện thực hóa việc hợp tác, xây dựng hệ thống dữ liệu y sinh quy mô lớn lâu dài và bền vững. Nội dung của những hợp tác này tập trung trên 3 khía cạnh: nghiên cứu; trao đổi học thuật và đào tạo hướng Y học chính xác.
Sự trao đổi, hợp tác, chia sẻ dữ liệu giữa các đơn vị, giữa các quốc gia, vùng miền là rất quan trọng, "bởi chỉ khi hiểu được những đặc điểm chung và riêng của từng quần thể, chúng ta mới có thể khai thác hết tiềm năng của y học di truyền", Phó Giáo sư Michael Winther – Trường Y khoa Lee Kong Chian, Đại học Công nghệ Nanyang, một trong các đối tác quốc tế cho biết.
Cũng theo PGS.TS Michael A. Beer – Trưởng Phòng thí nghiệm Hệ gen tính toán thuộc Khoa Kỹ thuật Y sinh, Đại học Johns Hopkins (Mỹ), tiến bộ trong y học chính xác liên quan đến hiểu biết về toán học, học máy và sinh học về cách giải trình tự hệ gen người mã hoá hành vi tế bào.
"Đây là một vấn đề khó đòi hỏi sự hợp tác trên toàn thế giới. Tôi rất vui mừng được hợp tác với VinBigdata và các nhóm nghiên cứu của Việt Nam, đồng thời hỗ trợ đào tạo các nhà nghiên cứu Việt Nam đóng góp vào vấn đề khoa học đầy thách thức và thú vị này", ông Michael cho biết.
Đánh giá về nguồn dữ liệu này, GS Tạ Thành Văn, Hiệu trưởng Đại học Y Hà Nội cho rằng, những nguồn dữ liệu này đóng vai trò định hướng trong nghiên cứu Y học chính xác. "Những cơ sở đào tạo, khám chữa bệnh chưa có điều kiện tạo ra nguồn dữ liệu khổng lồ như VinBigdata, song có nguồn lực để ứng dụng nguồn tài nguyên này. Lợi ích cuối cùng mang lại là sự phát triển khoa học cùng ngăn ngừa bệnh cho người dân", vị này nói.
"Dữ liệu lớn cần được chia sẻ thay vì nghiên cứu rồi cất giữ", GS Vũ Hà Văn khẳng định trong bài phát biểu tại sự kiện AI4VN được tổ chức hôm 27/11. Dữ liệu và nguồn nhân lực là hai điều kiện tiên quyết để giải quyết những vấn đề thiết thực của người Việt, mà theo GS Văn "nếu mình không làm cũng chưa chắc ai làm".
Tuấn Vũ