← VnExpress Khoa học công nghệ

ThalaScreen - giải pháp hỗ trợ tầm soát bệnh tan máu bẩm sinh Thalassemia dựa vào trí tuệ nhân tạo

ThalaScreen - giải pháp hỗ trợ tầm soát bệnh tan máu bẩm sinh Thalassemia dựa vào trí tuệ nhân tạo
 
 

Thalassemia là bệnh lý di truyền phổ biến nhất trên toàn cầu, với khoảng 100.000 trẻ em được sinh ra mỗi năm mắc các thể nặng của bệnh này. Đây là một rối loạn di truyền lặn trên nhiễm sắc thể thường, gây suy giảm quá trình tổng hợp các chuỗi protein hemoglobin, dẫn đến tình trạng thiếu máu nghiêm trọng và tăng hoạt động của tủy xương.

Vào năm 2022, ước tính khoảng 13,8% dân số Việt Nam mang gen Thalassemia, với tỷ lệ α-thalassemia cao nhất ở Đông Nam Á, chiếm 51,5%. Đáng chú ý, cả nước có trên 20.000 người bệnh mức độ nặng cần phải điều trị cả đời. Mỗi năm có thêm khoảng 8.000 trẻ được sinh ra bị bệnh Thalassemia, trong đó có khoảng 2.000 trẻ mắc Thalassemia các thể nặng cần truyền máu và thải sắt suốt đời, với chi phí điều trị lên đến 3 tỷ đồng cho mỗi bệnh nhân.

Ngoài ra, việc điều trị lâu dài đòi hỏi số lượng máu lớn, gây áp lực lên nguồn cung cấp máu của hệ thống y tế. Hiện nay, quy trình tầm soát Thalassemia bao gồm nhiều bước phức tạp như xét nghiệm máu, điện di hemoglobin và xét nghiệm gen. Tuy nhiên, các phương pháp này có chi phí cao, thời gian xử lý lâu và chưa tiếp cận rộng rãi đến người dân, đặc biệt tại vùng sâu, vùng xa. Một hạn chế lớn khác là các chỉ số huyết học hiện tại có độ đặc hiệu chưa cao, dễ gây dương tính giả, khiến nhiều trường hợp phải làm xét nghiệm chuyên sâu không cần thiết, làm tăng chi phí xét nghiệm và gây lãng phí nguồn lực y tế.

ThalaScreen được phát triển nhằm khắc phục những hạn chế trên bằng cách ứng dụng trí tuệ nhân tạo (AI) để tối ưu hóa quá trình sàng lọc. Hệ thống giúp tầm soát nhanh chóng, chính xác, chi phí thấp và dễ dàng tiếp cận. ThalaScreen tích hợp công nghệ học máy Meta vào nền tảng trực tuyến, giúp người dùng nhập dữ liệu huyết học từ xét nghiệm máu toàn phần (CBC) và nhận kết quả dự đoán ngay lập tức.

Mô hình Meta của ThalaScreen được xây dựng từ dữ liệu hơn 600.000 bệnh nhân tại Bệnh viện Hùng Vương trong giai đoạn 2018-2024, trong đó có 1.412 bệnh nhân đã được xác định bằng xét nghiệm gen. Với phương pháp học máy xếp chồng (stacking ensemble learning), hệ thống kết hợp nhiều thuật toán tiên tiến như Support Vector Machine (SVM), Flexible Discriminant Analysis (FDA) và Generalized Additive Model (GAM) để tối ưu hóa hiệu suất dự đoán. Kết quả thử nghiệm cho thấy, mô hình Meta đạt giá trị AUC 0,986 - cao hơn đáng kể so với các phương pháp tầm soát truyền thống. Đặc biệt, ThalaScreen giúp giảm tỷ lệ dương tính giả, hạn chế xét nghiệm chuyên sâu không cần thiết.

Điểm mới

Dự án ThalaScreen là một giải pháp đột phá trong lĩnh vực y tế, ứng dụng trí tuệ nhân tạo (AI) và học máy để nâng cao hiệu quả tầm soát bệnh Thalassemia, một trong những bệnh di truyền phổ biến nhất tại Việt Nam. So với các phương pháp tầm soát truyền thống, ThalaScreen không chỉ cải thiện độ chính xác mà còn giúp đơn giản hóa quy trình xét nghiệm, giảm chi phí, và mở rộng khả năng tiếp cận dịch vụ y tế.

1. Ứng dụng công nghệ tiên tiến

Mô hình học máy Meta ThalaScreen sử dụng mô hình học máy kết hợp (stacking ensemble learning), một phương pháp tiên tiến trong AI, để tối ưu hóa khả năng dự đoán nguy cơ mang gen Thalassemia. Trong khi các mô hình đơn lẻ có thể bị hạn chế về hiệu suất do phụ thuộc vào dữ liệu huấn luyện, phương pháp xếp chồng (stacking ensemble) cho phép ThalaScreen kết hợp nhiều thuật toán học máy khác nhau nhằm tận dụng ưu điểm của từng mô hình và loại bỏ các sai số riêng lẻ.

Cụ thể, hệ thống ThalaScreen phát triển một mô hình Meta, được xây dựng từ các mô hình cơ sở như Support Vector Machine (SVM), Generalized Additive Model (GAM), Flexible Discriminant Analysis (FDA), sau đó kết hợp kết quả của các mô hình này bằng thuật toán Generalized Linear Models (GLM). Nhờ cách tiếp cận này, ThalaScreen đạt giá trị AUC cao, cho độ nhạy bằng 1,000 và độ đặc hiệu được cải thiện lên đến 0,776, vượt trội so với các chỉ số tầm soát truyền thống như MCV/MCH và các chỉ số đã được công bố trước đó trên thế giới.

Mô hình Meta không chỉ giúp cải thiện độ nhạy và độ đặc hiệu, mà còn giúp giảm tỷ lệ dương tính giả, tránh việc bệnh nhân phải làm các xét nghiệm di truyền không cần thiết, giúp tiết kiệm chi phí và thời gian. Đây là một bước tiến quan trọng, đặc biệt trong bối cảnh các xét nghiệm di truyền tại Việt Nam có chi phí cao và khó tiếp cận đối với các nhóm dân cư vùng sâu, vùng xa.

2. Khai thác và xử lý dữ liệu lớn (Big Data) trong y tế

ThalaScreen được xây dựng dựa trên một cơ sở dữ liệu lớn, thu thập từ 600.000 bệnh nhân tại Bệnh viện Hùng Vương trong giai đoạn 2018-2024. Trong đó, dữ liệu được trích xuất với 1.412 trường hợp đã thực hiện xét nghiệm xác định mang gen Thalassemia được sử dụng làm dữ liệu đầu vào. Việc sử dụng dữ liệu thực tế từ bệnh viện tại Việt Nam giúp hệ thống học máy có thể nhận diện các biến thể di truyền phức tạp, phù hợp cho việc áp dụng mô hình tầm soát tại Việt Nam, cải thiện độ chính xác trong tầm soát Thalassemia, đặc biệt là các trường hợp đồng mắc thiếu máu thiếu sắt (IDA) – một thách thức lớn đối với các phương pháp tầm soát hiện nay.

Hệ thống AI của ThalaScreen có khả năng tự động phát hiện các đặc trưng trong dữ liệu và tối ưu hóa mô hình dự đoán dựa trên đặc điểm của người Việt Nam, thay vì phải dựa vào các chỉ số được phát triển từ các nghiên cứu quốc tế. Đây là một hướng đi quan trọng, đảm bảo rằng công nghệ có tính ứng dụng thực tiễn cao trong điều kiện y tế Việt Nam.

3. Đổi mới quy trình tầm soát

Tích hợp công nghệ AI vào nền tảng web Một trong những điểm sáng tạo quan trọng của ThalaScreen là khả năng tích hợp AI vào nền tảng trực tuyến, giúp quy trình tầm soát trở nên tiện lợi, nhanh chóng và dễ tiếp cận hơn.

- Thay vì phải làm nhiều xét nghiệm tốn kém như điện di hemoglobin hoặc xét nghiệm gen, bệnh nhân chỉ cần thực hiện một xét nghiệm công thức máu toàn phần (CBC).

- Sau đó, bảy chỉ số hồng cầu (RBC, HGB, HCT, RDW, MCV, MCH, MCHC) được nhập vào nền tảng web ThalaScreen, và mô hình AI sẽ phân tích dữ liệu và trả về kết quả dự đoán chỉ trong vài giây.

- Giao diện trực quan, thân thiện với người dùng, giúp bệnh viện, phòng khám sản khoa và cá nhân có thể dễ dàng tiếp cận mà không cần đào tạo chuyên sâu về công nghệ.

- Chức năng tải lên dữ liệu hàng loạt (dưới dạng file CSV) giúp các cơ sở y tế có thể sàng lọc hàng trăm đến hàng nghìn bệnh nhân cùng lúc, phù hợp cho các chiến dịch tầm soát diện rộng. Điều này giúp đơn giản hóa quy trình xét nghiệm, tăng tốc độ xử lý, đồng thời đảm bảo chi phí thấp hơn so với xét nghiệm di truyền.

Tổng chi phí trung bình cho toàn bộ quy trình tầm soát truyền thống, bao gồm xét nghiệm điện di hemoglobin và xét nghiệm gen Thalassemia, có chi phí từ 3-5 triệu đồng cho mỗi trường hợp.

Trong khi đó, ThalaScreen sử dụng trí tuệ nhân tạo để phân tích dữ liệu chỉ từ kết quả xét nghiệm máu toàn phần (CBC) - một loại xét nghiệm phổ biến và có giá thành thấp, giúp giảm chi phí xuống dưới 200.000 đồng/mẫu, tiết kiệm hơn 95% so với các quy trình hiện tại.

Thay vì phải thực hiện các xét nghiệm phức tạp như điện di hemoglobin hay phân tích gen, ThalaScreen cho phép sàng lọc ban đầu hiệu quả, giúp xác định những trường hợp thực sự cần tiếp tục xét nghiệm chuyên sâu. Điều này giảm đáng kể chi phí cho bệnh nhân và hệ thống y tế.

Đối với các cơ sở y tế, việc tích hợp công cụ này giúp giảm nhu cầu đầu tư vào thiết bị chuyên sâu và đào tạo nhân sự phân tích phức tạp, từ đó tối ưu hóa nguồn lực tài chính. Với chi phí thấp, dịch vụ trở nên dễ tiếp cận hơn đối với tất cả người dân, đặc biệt là ở các khu vực khó khăn về mặt kinh tế.

Với tính đột phá trên giải pháp đã được cộng đồng khoa học và công nghệ ghi nhận thông qua nhiều giải thưởng danh giá, phản ánh rõ tính mới, khả năng ứng dụng và giá trị thực tiễn.

Cụ thể giải pháp đã đạt:

- Giải Nhất giải thưởng Sinh viên Nghiên cứu Khoa học Euréka lần thứ 26 năm 2024

- Giải Nhất - Cuộc thi Smart City 2024 - Sáng kiến xây dựng thành phố thông minh, Bảng A - Các dự án công nghệ số, vi mạch, IoT... do Vườn ươm Doanh nghiệp Công nghệ cao (SHTP-IC) tổ chức

- Giải Ba Hội nghị Khoa học và Công nghệ Tuổi trẻ ngành Y tế lần thứ XXII (2024)

- Top 10 dự án xuất sắc (đối tượng 2) được hỗ trợ ươm tạo tại cuộc thi "Tìm kiếm dự án đổi mới sáng tạo ứng dụng trí tuệ nhân tạo Thành phố Hồ Chí Minh" – AI STAR 2024 do Sở Khoa học và Công nghệ TPHCM tổ chức

- Giải Nhì Cuộc thi APEC INNOVATION lần 1 (2024-2025)

- Giải Ba Hội thi "Sáng tạo Kỹ thuật Thành phố Hồ Chí Minh lần thứ 28" do Liên hiệp các Hội Khoa học và Kỹ thuật Tp.HCM trao tặng (2025); 01 bài đăng trên tạp chí Y học cộng đồng (Journal of Community Medicine) với tiêu đề "Đánh giá kết quả sàng lọc và đặc điểm dịch tễ của thai phụ Thalassemia tại Bệnh viện Hùng Vương".

Đội ngũ phát triển

TS. Nguyễn Minh Nam: Trưởng nhóm dự án, là giảng viên và nhà nghiên cứu với chuyên môn sâu trong lĩnh vực sinh học phân tử, y sinh học, di truyền, đặc biệt về ung thư học và sinh tin học.

BS. Đỗ Nguyễn Thảo Vy: Bác sĩ Khoa Di truyền Y học, Bệnh viện Hùng Vương, với chuyên môn về tầm soát các bệnh lý về di truyền, đặc biệt là chăm sóc tiền sản.

ThS. Bùi Thị Phường: Thạc sĩ Công nghệ Sinh học, có nhiều năm kinh nghiệm trong lĩnh vực sinh học phân tử và di truyền.

CN. Nguyễn Thành Đạt: Cử nhân Công nghệ Sinh học, nghiên cứu viên về mô hình học máy và lập trình.

Nguyễn Lê Phú Quí: Sinh viên Y đa khoa, xây dựng website và phân tích dữ liệu tin sinh.