Tại hội thảo "Trí tuệ nhân tạo phục vụ chăm sóc sức khỏe" do Trung tâm Thông tin và Thống kê Khoa học Công nghệ (Sở Khoa học và Công nghệ TP HCM) tổ chức sáng 29/9, PGS.TS Thái Thanh Trúc, giảng viên Đại học Y dược thành phố chỉ ra những thách thức trong khai thác dữ liệu bệnh nhân để chạy các mô hình trí tuệ nhân tạo phục vụ chẩn đoán bệnh.
Ông chia sẻ, khi thực hiện đề tài nghiên cứu ứng dụng AI trong chẩn đoán bệnh viêm ruột thừa cấp, nhóm sử dụng dữ liệu 4.200 bệnh nhân của bệnh viện Nhân dân Gia Định. Đây là những người từng thực hiện phẫu thuật cắt ruột thừa giai đoạn 2016 - 2020. Từ dữ liệu này, nhóm xây dựng mô hình AI tính toán khả năng biến chứng của bệnh theo tỷ lệ phần trăm, giúp bác sĩ cân nhắc nên mổ cắt bỏ hay điều trị bảo tồn ruột thừa.
Tuy nhiên, PGS Trúc cho biết, quá trình thu thập, xử lý dữ liệu bệnh nhân được cho là thách thức, mất nhiều thời gian nhất. Trong số hơn 4.200 ca bệnh, nhóm chỉ có thể sử dụng dữ liệu của hơn 3.000 người đảm bảo chất lượng và tiếp tục xử lý để có hơn 2.000 dữ liệu bệnh nhân đầy đủ thông tin. Do đó, một số lượng không nhỏ dữ liệu bệnh nhân bị loại bỏ. "Biết đâu những dữ liệu bị loại lại chứa thông tin có giá trị vì nó thuộc vào những ca bệnh nặng có thể ảnh hưởng độ chính xác mô hình", PGS Trúc nói. Nhóm nghiên cứu tiếp tục dùng các mô hình toán học bổ khuyết để có thể sử dụng một phần nguồn dữ liệu bị loại này.
Thực tế theo PGS Trúc, nguyên nhân nguồn dữ liệu bị loại là do trong bệnh án không có đầy đủ thông tin hoặc chưa được chuẩn hóa. Dẫn chứng, ông nói cùng một bệnh nhưng với hai thầy thuốc, người nhiều kinh nghiệm có thể chỉ hỏi vài câu, còn bác sĩ mới ra trường nhiều khi hỏi rất nhiều. Điều này tạo ra những nguồn thông tin không thống nhất về tình trạng bệnh nhân. Ngoài ra, việc dùng ngôn ngữ vùng miền cũng tạo ra thông tin khác nhau. Từ đó dẫn đến việc nhập thông tin, sử dụng thuật ngữ khác nhau trong bệnh án, theo quan điểm từng người dẫn đến dữ liệu không được chuẩn hóa. "Điều này sẽ tạo ra thách thức trong việc nhập, quản lý dữ liệu bệnh nhân", PGS Trúc nói, cho biết thêm dữ liệu không được chuẩn hóa sẽ khó được khai thác do các mô hình AI cần sử dụng nguồn dữ liệu đầu vào sạch, đầy đủ thông tin để đảm bảo độ chính xác.
Đồng quan điểm, GS Hồ Tú Bảo, Giám đốc phòng thí nghiệm khoa học dữ liệu, Viện nghiên cứu cao cấp về toán (VIASM) cho biết, việc xử lý thông tin trên bệnh án rất phức tạp với hai loại dữ liệu cơ bản. Đó là thông tin lâm sàng cho bác sĩ, điều dưỡng viết ra và cận lâm sàng là các hình ảnh chụp chiếu, nội soi với dữ liệu dưới dạng số.
Ông Bảo chỉ thêm thách thức còn ở các thông tin do con người tạo ra không đồng nhất, bởi liên quan đến quá trình khám chữa bệnh và các kiến thức y học chuyên ngành rất sâu. "Xử lý ngôn ngữ tự nhiên đã khó, nhưng với ngôn ngữ ngành y còn khó hơn, hàm chứa nhiều kiến thức chuyên môn trong hàng nghìn năm phát triển của ngành", GS Bảo nói. Do đó, ông đề xuất cần có sự chuẩn hóa ngôn ngữ của bác sĩ, để thống nhất về thuật ngữ chuyên môn, cách sử dụng từ viết tắt... Các dữ liệu dưới dạng số, văn bản khi được chuẩn hóa sẽ được tính toán theo thuật toán của trí tuệ nhân tạo để cho ra kết quả chính xác hơn.
Theo GS Bảo việc chuẩn hóa dữ liệu bệnh nhân là cơ sở để xây dựng đề án hồ sơ điện tử với dữ liệu và mô hình trí tuệ nhân tạo giúp cơ quan quản lý có bức tranh tổng thể về tình hình sức khỏe người dân toàn quốc hay từng bệnh viện. Từ nguồn dữ liệu, nhà nước sẽ có những chính sách chăm lo sức khỏe người dân. Tuy nhiên, ông cho rằng, đây là con đường dài, cần có lộ tình xây dựng theo từng năm.
Theo bác sĩ Nguyễn Thanh Vũ, Viện trưởng Viện nghiên cứu y sinh, thực tế trong quá trình thăm khám quá nhiều bệnh nhân, vì áp lực công việc bác sĩ nhiều khi không nhớ nổi thông tin. Ông cho biết, Viện nghiên cứu y sinh đang xây dựng chuẩn đầu vào dữ liệu bệnh theo tiêu chuẩn Bộ Y tế về các thuật ngữ chuyên ngành. Bác sĩ Vũ mong muốn tham gia hợp tác cung cấp nguồn dữ liệu với các cơ quan nghiên cứu để xây dựng các mô hình AI hỗ trợ bác sĩ chẩn đoán bệnh thường gặp.
Hà An