Tên đội dự thi: Hành trình thông minh
Trong thời đại số hóa, mô hình học máy đang dần trở thành yếu tố được ứng dụng rộng rãi trong nhiều lĩnh vực như kinh tế, giáo dục, và tài chính... Tuy nhiên, giá trị thực tiễn của mô hình học máy chỉ hiện thực hóa khi nó được triển khai và tích hợp vào quy trình kinh doanh, quản lý. Đây là điểm mà nhiều công ty và tổ chức gặp phải khó khăn khi cố gắng áp dụng mô hình học máy vào hoạt động.
Khoảng cách giữa việc huấn luyện mô hình và triển khai mô hình học máy thường là một thách thức lớn trong lĩnh vực học máy và trí tuệ nhân tạo. Nguyên nhân là do sự không nhất quán trong định dạng dữ liệu và logic của các biến - giá trị đầu vào của mô hình học máy, cũng như thiếu tính kế thừa giữa các giai đoạn triển khai. Những yếu tố này dẫn đến việc chúng ta mất rất nhiều thời gian để triển khai mô hình, tăng khả năng sai lệch giữa kết quả mô hình phát triển và mô hình thực tế, từ đó ảnh hưởng trực tiếp đến chất lượng dự báo. Đây cũng là mối quan tâm hàng đầu của các nhà khoa học dữ liệu khi ứng dụng mô hình học máy.
Nhận thức về vấn đề này, đội thi NCB-CDS-AIML đề xuất "Giải pháp nền tảng tích hợp triển khai mô hình học máy dựa trên điện toán đám mây" gồm hai chức năng chính:
Chức năng kho cung cấp biến tập trung - Feature Serving:
- Tự động hóa tính toán hàng triệu biến từ dữ liệu thô - vốn được phát sinh hàng ngày từ các hệ thống nghiệp vụ.
- Quản lý tập trung biến, nhóm biến với khả năng thay đổi cấu hình dễ dàng và tùy chỉnh logic linh hoạt.
- Lưu trữ bộ biến trong một cơ sở dữ liệu tập trung được gọi là feature store, cho phép chia sẻ và tái sử dụng dễ dàng cho đa dạng các bài toán từ các lĩnh vực khác nhau.
- Cung cấp danh sách biến dưới dạng API, với số lượng tùy chỉnh theo nhu cầu, dễ dàng tích hợp với nhiều hệ thống hoặc đối tượng sử dụng khác nhau.
Chức năng kho cung cấp kết quả mô hình học máy tập trung - Model Serving:
- Quản lý toàn diện các phiên bản mô hình học máy đã triển khai trên hệ thống.
- Tự động tích hợp với hệ thống Feature Serving để lấy giá trị biến làm đầu vào cho mô hình, từ đó dự báo kết quả dựa trên mô hình học máy.
- Cung cấp danh sách các mô hình học máy đã triển khai dưới dạng API, cho phép người dùng hoặc hệ thống tích hợp chọn lựa mô hình theo nhu cầu. Hệ thống sẽ tự động xử lý và trả về kết quả dự báo tương ứng với các mô hình đã được chọn.
Để đáp ứng nhu cầu tính toán thời gian thực với lượng dữ liệu lớn và bất đồng bộ, đội thi đã xây dựng và lựa chọn các giải pháp cộng nghệ sau:
Công nghệ cho việc xử lý dữ liệu và tính toán biến theo thời gian thực
- Feature generation: hàm tự động chuyển đổi dữ liệu và tính toán biến dựa trên ứng dụng đa dạng thuật toán tính toán tối ưu.
- Oracle Golden Gate: công nghệ giúp đồng bộ dữ liệu thay đổi theo thời gian thực từ các nguồn dữ liệu nghiệp vụ khác nhau đến Kafka.
- Redis: công nghệ giúp tối ưu quá trình xử lý và tính toán biến bằng việc sử dụng redis để lưu trữ và phản hồi các yêu cầu nhanh chóng.
Công nghệ hỗ trợ xử lý dữ liệu bất đồng bộ
- Data Connector: hàm làm nhiệm vụ kết nối, kiểm tra và lấy dữ liệu từ cache, từ API hoặc các nguồn dữ liệu khác, có cơ chế kết nối và xử lý theo nhu cầu.
- Apache Kafka: ứng dụng cơ chế pub/ sub để xử lý các luồng dữ liệu bất đồng bộ - nguồn dữ liệu phản hồi có độ trễ khác nhau.
Công nghệ để lưu trữ và xử lý dữ liệu lớn
- Big Query: công nghệ lưu trữ và xử lý dữ liệu lớn giúp tối ưu trong việc xử lý và tính toán các câu lệnh phức tạp.
Công nghệ tích hợp và quản lý truy vấn theo nhu cầu
- Graph QL: Sử dụng Strawberry schema để tùy biến truy vấn biến hoặc kết quả dự báo của mô hình theo nhu cầu.
- Fast API: Dùng để cung cấp giải pháp tích hợp với các hệ thống khác một cách nhanh chóng.
Hệ thống này ứng dụng nhiều thuật toán được tối ưu từ xử lý dữ liệu thô đến việc tối ưu hóa quá trình tính toán biến, đảm bảo khả năng phản hồi nhanh chóng và chính xác cho mọi yêu cầu.
Với khả năng tùy biến, tính ứng dụng cao và dễ dàng tích hợp, "Giải pháp nền tảng tích hợp triển khai mô hình học máy dựa trên điện toán đám mây" có thể hỗ trợ triển khai hiệu quả các mô hình học máy, tối ưu hóa nguồn lực trong lĩnh vực công nghệ và trí tuệ nhân tạo trong đa dạng các lĩnh vực xã hội như quản lý y tế, giáo dục, an ninh.