Anh Nguyễn Hải Nam hiện là Chief Mentor Chương trình đào tạo chuyên sâu xSeries tại FUNiX, cố vấn kỹ thuật của Nhà thông minh LUMI. Anh từng đảm nhiệm vị trí Kỹ sư tối ưu tại VNPT và AI R&D Team Leader tại ASILLA Japan, một công ty khởi nghiệp chuyên về AI trong lĩnh vực y tế.
Tại chương trình chia sẻ với sinh viên FUNiX, anh đưa ra định nghĩa Data Science - Ngành khoa học dữ liệu là tất cả những công việc liên quan đến thao tác, sử dụng dữ liệu: từ thu thập, dự đoán, phân tích, đến đưa ra mô hình, phát triển thành API hoặc dịch vụ, đưa ra quyết định dựa trên dữ liệu... Theo mentor Hải Nam, sự bùng nổ của Data Science trong những năm gần đây là nhờ có sự bùng nổ của khối lượng dữ liệu cùng sự phát triển của thuật toán và các bài báo khoa học.
Báo cáo về Bối cảnh ngành công nghiệp IT ở Việt Nam của TopDev cho thấy Machine learning - AI, và Big Data - Data Science là hai trong số các kỹ năng sẽ được các nhà tuyển dụng mong đợi nhất, được săn đón nhất trong tương lai gần. Thu nhập từ các công việc trong ngành Data Science cũng thuộc top đầu thế giới, với mức lương trung bình tại Mỹ là 122.000 USD mỗi năm và mức lương tại Việt Nam là 1.900 USD mỗi năm.
Các nhóm nghề nghiệp chính trong Data Science
Theo Mentor Nguyễn Hải Nam, một dự án về Data Science bắt đầu với việc hiểu rõ bài toán kinh doanh (Business understanding), tiếp đến là quyết định làm thế nào để dùng dữ liệu để giải quyết bài toán kinh doanh (Analytic approach). Sau đó tới các bước: yêu cầu, thu thập, hiểu, và làm sạch dữ liệu (Data requirements, Data collection, Data understanding, Data preparation) và tiếp tục được mô hình hóa, đánh giá, triển khai mô hình (Modeling, Evaluation, Deployment) và cuối cùng là phản hồi (Feedback). Mentor Nguyễn Hải Nam Nam đặc biệt nhấn mạnh tầm quan trọng của Feedback – một bước rất quan trọng để giúp phần mềm được cải tiến.
Tương ứng với 10 bước trên, có bốn phân ngành chính trong khoa học dữ liệu. Đó là Phân tích dữ liệu, Kỹ sư học máy, Kỹ sư dữ liệu và Nhà khoa học dữ liệu.
Data analyst (phân tích dữ liệu) là vị trí tập trung từ bước hiểu về bài toán kinh doanh cho đến hiểu về dữ liệu, làm việc với công cụ phân tích dữ liệu như Python, Tableau... Công việc này cần đến các kỹ năng như xử lý dữ liệu, dữ liệu bảng, một số kỹ năng toán và machine learning.
Machine Learning hoặc Deep learning Engineer (Kỹ sư học máy) tập trung vào phần triển khai mô hình, với các bước chuẩn bị dữ liệu, mô hình hóa dữ liệu, đánh giá mô hình. Nhiệm vụ của ML hoặc DL Engineer là phải tạo được một mô hình với đề bài mà Data Analyst đưa ra, tìm ra được một giải pháp đủ tốt cho bài toán đang được đặt ra.
Data Engineer (Kỹ sư dữ liệu) có nhiệm vụ đưa ra yêu cầu về dữ liệu, thu thập, lưu trữ, truy xuất, xử lý... dữ liệu. Với các công ty có một khối lượng data khổng lồ như Viettel, Shopee... đây không hề là một công việc đơn giản. Đây là vị trí có nhiều việc làm nhất trong Data Science.
Data Scientist (Nhà khoa học dữ liệu) có vai trò cao hơn các vị trí trên. Nhà khoa học dữ liệu cần phải nắm được toàn bộ chu trình của một dự án Data Science, tập trung đặc biệt vào các bước: Có góc nhìn tổng quan về bài toán và phương hướng phù hợp để giải quyết các vấn đề trong bài toán ấy với DS, hiểu về dữ liệu và các phương pháp mô hình hóa chi tiết; Xử lý phân tích lỗi và phản hồi, hiểu được vấn đề đang xảy ra ở đâu. Vị trí này cần có một nền tảng kiến thức rộng hơn các công việc ở trên.
Điều kiện để theo ngành Data Science
Theo mentor Nam, để theo ngành Data Science, sinh viên khó để làm được Data Scientist ngay. Thông thường, mọi người thường bắt đầu từ các vị trí thấp hơn. Ví dụ, thuần về dữ liệu có thể làm Data Engineer, phân tích hoặc xử lý dữ liệu có thể làm Data Analyst, mô hình hóa thì làm Machine Learning Engineer. Với vị trí Data Scientist phải đủ "cứng" ở tất cả các kỹ năng trên.
"Khi mới bắt đầu, người học nên tìm hiểu về Data Science trong khoảng 3 - 6 tháng rồi chọn nhánh rẽ, có thể học trước 1 - 2 môn đầu để tìm lĩnh vực phù hợp với bản thân. Data Engineer có nhu cầu cao, không lo thất nghiệp, còn để theo Data Scientist, thách thức hơn rất nhiều, phải đi sâu, nếu đi rộng thì cần 1 - 2 năm mới đủ để xin việc", mentor Nam nhận định.
Anh Nam gợi ý, người học có thể bắt đầu bằng cách tìm kiếm từ google các bước học tập và nghiên cứu để trở thành nhà khoa học dữ liệu, bạn có thể tự học để theo ngành. Một gợi ý là người học có thể theo các chương trình như Machine Learning hoặc Data Science của xSeries - chương trình đào tạo công nghệ chuyên sâu của FUNiX, sẽ giúp bạn bớt thời gian tự mày mò tìm hiểu.
Để theo được ngành này, người học cần nắm chắc Toán và lập trình - hai nền tảng cơ bản của Data Science. Trong đó, toán cần nắm tốt các kiến thức đặc thù như: Xác suất thống kê (yêu cầu nắm chắc và sâu), đại số tuyến tính và giải tích.
Vân Nguyễn