Hệ thống cơ sở dữ liệu nhanh nhất thế giới
 |
| Phòng thí nghiệm ở Idenken. |
Fujitsu và Viện di truyền học Idenken đang phối hợp với nhau để tung ra "Interstage Shunsaku Data Manager Enterprise Edition". Hệ thống này đã có mặt trên thị trường Nhật Bản và dự kiến sẽ xuất hiện tại Mỹ vào cuối năm nay.
Sản phẩm mẫu của hệ thống Shunsaku, dựa vào cơ chế cơ sở dữ liệu Shunsaku XML của Fujitsu, đã hoàn tất và đang ở trong giai đoạn thử nghiệm tại Viện nghiên cứu Idenken.
Cơ sở dữ liệu của Idenken là một trong 3 hệ thống dữ liệu di truyền học quan trọng nhất trên thế giới. Nó cung cấp thông tin cho tất cả các dự án genome do chính phủ Nhật Bản tiến hành và dữ liệu tên miền công cộng của Cục sáng chế Nhật Bản. Nó hiện chứa đựng 35 triệu hồ sơ bao gồm mẫu DNA của 39,8 tỷ gốc gene (base) và quy mô của kho này tăng gấp đôi mỗi năm.
Theo Osamu Akiba, Giám đốc trung tâm phát triển Triole của Fujitsu, mỗi ngày có hơn 10.000 người dùng công cụ tìm kiếm cơ sở dữ liệu. Do đó hai đối tác giành sự ưu tiên số một cho tính năng search.
Trong khi hệ thống tìm kiếm hiện nay dựa vào cơ sở dữ liệu liên quan và mất khoảng 10 phút mới có thể tìm được 2 hoặc 3 từ khoá, hệ thống mẫu của Fujitsu đã rút ngắn thời gian search chỉ trong vòng 5 giây.
Nick Hayashi, phát ngôn viên của Fujitsu ở Tokyo, khẳng định bí quyết về tốc độ Shunsaku chính là thuật toán tìm kiếm. Điều này có nghĩa là nó không yêu cầu một danh mục nào cả. Một lần search được thực hiện trong thời gian thực và những văn bản mới có thể xuất hiện trong bảng kết quả tìm kiếm ngay khi những thông tin này được nhập vào cơ sở dữ liệu.
Nếu một cơ sở dữ liệu có nội dung tĩnh, dữ liệu liên quan và Shunsaku sẽ có thể hoàn thành nhiệm vụ tìm kiếm cũng chỉ từng ấy thời gian. Tuy nhiên, cơ sở dữ liệu của Idenken sẽ liên tục tăng. Điều này có nghĩa là mục cơ sở dữ liệu liên quan cần phải nâng cấp thường xuyên. Nếu danh mục này không đuổi kịp với tốc độ của những thông tin mới được bổ sung vào. Do đó, thao tác tìm kiếm sẽ trở nên chậm chạp hơn. Vì Shunsaku luôn luôn làm việc trên cơ sở dữ liệu tại thời gian thực, những vấn đề tương tự sẽ không thể ảnh hưởng đến nó.
Lúc đầu, chương trình Shunsaku được thiết kế nhằm mục đích xử lý lệnh tìm kiếm văn bản tốc độ cao để giải quyết những dữ liệu quan trọng như search trong lĩnh vực công nghệ sinh học. Hayashi nói: "Chúng tôi đã tạo ra được chương trình mẫu để copy những chức năng của cơ sở dữ liệu hiện tại và bổ sung nhiều chức năng mới. Chúng tôi sẽ đẩy nhanh quá trình tìm kiếm lên gấp 200 lần so với cơ sở dữ liệu quan hệ".
N.Hương (theo Techworld)