Nhà virus học khôi phục được dữ liệu gene nCoV ở Vũ Hán

Một năm trước, hơn 200 trình tự gene virus ban đầu ở Vũ Hán được yêu cầu xóa khỏi cơ sở dữ liệu khoa học trực tuyến, nhưng được một nhà virus học Mỹ khôi phục một phần.

Jesse Bloom, một nhà virus học tại Trung tâm Nghiên cứu Ung thư Fred Hutchinson ở Seattle, Mỹ, cho biết đã khôi phục được 13 trình gene trong số đó bằng cách lật tung các tập dữ liệu lưu trữ trên Google Cloud.

Dữ liệu Bloom công bố hôm 22/6 mang tới nhiều thông tin mới để xác định thời điểm và cách thức virus nCoV truyền từ dơi hoặc động vật khác sang người. Phân tích cũng củng cố những tranh luận rằng virus có thể đã lưu hành ở Vũ Hán trước các đợt bùng phát đầu tiên liên quan tới động vật và chợ hải sản hồi tháng 12/2019.

Dù thông tin mới không ảnh hưởng tới giả thuyết virus rò rỉ từ phòng thí nghiệm mà chính quyền Joe Biden đang điều tra, nó làm dấy lên câu hỏi tại sao các trình tự gene ban đầu bị xóa.

Bloom xem việc xóa trình tự gene là một hành động đáng ngờ. "Có vẻ các trình tự gene được xóa để che giấu sự tồn tại của chúng", ông viết trong báo cáo mới đăng trên tạp chí khoa học Biorxiv.

Trình tự gene của virus nắm giữ những manh mối quan trọng về cách nCoV truyền từ động vật, có thể là dơi, sang người. Và những trình tự gene của các ca nhiễm đầu tiên còn quý giá hơn rất nhiều, bởi chúng có thể giúp các nhà khoa học tiến gần hơn nguồn gốc lây lan ban đầu.

Bác sĩ tại bệnh viện Trung Nam thuộc Đại học Vũ Hán hồi tháng 1/2020. Ảnh: AP. — Bác sĩ tại bệnh viện Trung Nam thuộc Đại học Vũ Hán hồi tháng 1/2020. Ảnh: *AP.*

Khi Bloom xem xét dữ liệu gene được công bố bởi nhiều nhóm nghiên cứu khác, ông đã thấy một nghiên cứu vào tháng 3/2020 kèm tài liệu về 241 trình tự gene được các nhà khoa học Đại học Vũ Hán thu thập. Thông tin cho biết các nhà khoa học đã đăng tải trình tự gene lên một cơ sở dữ liệu trực tuyến Sequence Read Archive (SRA), do Thư viện Y khoa Quốc gia của chính phủ Mỹ quản lý.

Nhưng khi Bloom tìm kiếm dữ liệu gene đó vào đầu tháng này, kết quả ông nhận được từ Sequence Read Archive là "không tìm thấy thư mục nào". Ông cố gắng tìm kiếm các manh mối liên quan và phát hiện người thu thập 241 trình tự gene là nhà khoa học Aisi Fu của Bệnh viện Nhân dân ở Vũ Hán. Tiếp tục lần theo manh mối, Bloom cuối cùng cũng thấy một nghiên cứu khác được đăng tải bởi bác sĩ Fu và các đồng nghiệp vào tháng 3/2020, nói về một phương pháp xét nghiệm nCoV mới. Nhóm nhà khoa học đã đăng nghiên cứu lên tạp chí khoa học Wiley Online Library ba tháng sau đó.

Trong nghiên cứu, các nhà khoa học viết đã xem xét 45 mẫu dịch mũi từ "những bệnh nhân ngoại trú nghi ngờ nhiễm nCoV trong giai đoạn đầu dịch". Sau đó họ phân tích trình trự gene của các mẫu sinh phẩm nhưng không công bố chúng. Thay vào đó, họ chỉ công bố một số đột biến của virus. Thông qua một số manh mối, Bloom biết các mẫu virus này thuộc về 241 trình tự gene bị mất.

Bloom sau đó phát hiện nhiều trình tự gene trong số này được lưu trữ dưới dạng tệp trên Google Cloud. Mỗi trình tự được chứa trong một tệp trên kho lưu trữ đám mây và tên các tệp đều có chung một định dạng cơ bản. Dựa trên những dữ liệu trên Google Cloud, Bloom đã khôi phục được 13 trong 241 trình tự gene đã bị xóa.

Với dữ liệu mới, Bloom đang cố gắng tìm hiểu giai đoạn đầu đại dịch. Ông kết hợp 13 trình tự gene mới khôi phục và những trình tự đã được công bố khác, với hy vọng có thể xây dựng cây phả hệ của nCoV.

Các mẫu virus được lấy từ chợ hải sản Hoa Nam, nơi liên quan tới những ca nhiễm đầu tiên được phát hiện vào tháng 12/2019, có những đột biến mà những mẫu virus được thu thập vài tuần sau đó không có. Các trình tự gene mà Bloom khôi phục cũng không có đột biến này.

Điều này khiến Bloom tin rằng trước khi lan tới chợ hải sản Hoa Nam, nCoV đã lưu hành một thời gian ở Vũ Hán. Tuy nhiên, ông cũng thừa nhận kết luận này sẽ cần thêm những phân tích sâu hơn về trình tự gene của virus.

Michael Worobey, một nhà sinh vật học tiến hóa tại Đại học Arizona, cho biết ông cùng đồng nghiệp đang tiến hành nghiên cứu lớn về gene của nCoV để tìm hiểu nguồn gốc Covid-19. Và giờ, họ sẽ kết hợp với những phát hiện về 13 trình tự gene mới của Bloom.

"Những dữ liệu bổ sung sẽ đóng vai trò lớn trong nỗ lực đó", Worobey nói.

Chợ hải sản Hoa Nam ở thành phố Vũ Hán, Trung Quốc hồi tháng 1/2020. Ảnh: AP. — Chợ hải sản Hoa Nam ở thành phố Vũ Hán, Trung Quốc hồi tháng 1/2020. Ảnh: *AP.*

Hiện chưa rõ lý do tệp thông tin về trình tự gene bị xóa khỏi SRA. Tuy nhiên, các nhà khoa học có thể yêu cầu xóa dữ liệu bằng cách gửi mail cho quản lý của kho dữ liệu trực tuyến. Thư viện Y khoa Quốc gia nói các trình tự gene bị xóa từ hè năm ngoái.

"Những trình tự gene nCoV được gửi đăng trên SRA vào tháng 3/2020 và sau đó được người đệ trình yêu cầu gỡ bỏ vào tháng 6/2020", Renate Myles, phát ngôn viên của Viện Y tế Quốc gia.

Myles cho biết các nhà quản lý SRA khi đó được thông báo các trình tự gene đang được cập nhật và sẽ được thêm vào cơ sở dữ liệu khác. Tuy nhiên, Bloom đã lục tung các cơ sở dữ liệu mà ông biết nhưng không thấy.

"Bạn không thể nói tại sao chúng bị loại bỏ", Bloom thừa nhận. "Bạn chỉ có thể nói hậu quả của việc loại bỏ chúng là mọi người sẽ không nhận thấy chúng tồn tại".

Tiến sĩ Worobey hy vọng nhận được những câu trả lời. "Tôi hy vọng được nghe thông tin từ những người đã tạo ra và sau đó xóa những trình tự gene quan trọng này, để chúng tôi có thể hiểu hơn về động thái của họ. Nó thật sự kỳ lạ và cần có một lời giải thích", ông nói.

13 trình tự gene được phát hiện khiến Bloom tự hỏi liệu các nhà khoa học có thể phát hiện thêm manh mối khác trên các cơ sở dữ liệu trực tuyến. "Chúng ta cần cố gắng tìm kiếm nhiều trình tự gene ban đầu nhất có thể. Tôi nghĩ nghiên cứu này cho thấy chúng ta có thể tìm kiếm ở mọi nơi", ông nói.

Thanh Tâm (Theo NYTimes)

Trở lại Thế giớiTrở lại Thế giới