Mô hình ngôn ngữ lớn (LLM) là mô hình được đào tạo bằng cách sử dụng các kỹ thuật học sâu trên tập dữ liệu văn bản hoặc hình ảnh khổng lồ. Mô hình này có khả năng hiểu tri thức, tự tạo văn bản và thực hiện các tác vụ xử lý ngôn ngữ tự nhiên khác nhau. Đây được xem như chìa khóa để phát triển công nghệ AI tạo sinh (Generative AI) - có khả năng tạo ra nội dung và ý tưởng mới ở nhiều hình thái khác nhau (văn bản, hình ảnh, âm thanh...).
Với việc xây dựng thành công mô hình ngôn ngữ lớn tiếng Việt, VinBigdata sẽ tích hợp công nghệ để đưa VinBase (nền tảng trí tuệ nhân tạo đa nhận thức toàn diện) trở thành nền tảng AI tạo sinh tại Việt Nam, đồng thời cung cấp các giải pháp phát triển trên nền công nghệ này như Generative AI chatbot, callbot hay trợ lý ảo ViVi thế hệ mới... Công nghệ này giúp tăng tính tự nhiên trong giao tiếp của máy, đồng thời hỗ trợ người dùng tìm kiếm, tổng hợp thông tin nhanh chóng và đơn giản hơn so với trước đây.
Giáo sư Vũ Hà Văn - Giám đốc Khoa học Công ty VinBigdata cho biết trên thế giới đã có một số tập đoàn lớn nghiên cứu thành công và ra mắt các sản phẩm dựa trên mô hình ngôn ngữ lớn như OpenAI với ChatGPT hay Google với Bard. Tại Việt Nam, VinBigdata được Vingroup đầu tư để xây dựng mô hình ngôn ngữ lớn tiếng Việt. Theo ông Văn, mô hình này tập trung giải quyết ba vấn đề cốt lõi gồm cải thiện tính chính xác, giảm chi phí hạ tầng và đảm bảo tính bảo mật.
"Thay vì cần tới khoảng 175 tỷ tham số như ChatGPT thì VinBigdata có thể tạo ra mô hình ngôn ngữ lớn với vài tỷ tham số nhưng vẫn có khả năng sinh ra các văn bản có tính xác thực cao, tập trung vào dữ liệu của người Việt và tri thức Việt", lãnh đạo đơn vị nói.
Việc làm chủ công nghệ, tự phát triển từ những bước đầu tiên, xây dựng mô hình ngôn ngữ lớn tiếng Việt, được xem là bước tiến giúp VinBigdata đưa công nghệ AI tạo sinh vào hệ sinh thái các sản phẩm, dịch vụ trên thị trường. Hiện doanh nghiệp bước đầu ứng dụng công nghệ mới trên dòng sản phẩm VinBase KB (VinBase Knowledge Base Portal). Sản phẩm có khả năng truy xuất thông tin và tự động tạo ra câu trả lời dựa trên các thông tin được thu thập từ các tập dữ liệu cực lớn trong hệ tri thức.
Dự kiến tháng 12 năm nay, thành viên của Vingroup sẽ ra mắt hai dòng sản phẩm chính là VinBase2.0 và ứng dụng ViGPT. VinBase 2.0 là nền tảng AI tạo sinh đa nhận thức với các giải pháp phục vụ doanh nghiệp, cơ quan chính phủ. Trong khi đó, ứng dụng ViGPT được doanh nghiệp giới thiệu là "ChatGPT phiên bản Việt", được mở cho cộng đồng truy cập và thử nghiệm. Với ViGPT, người dùng có thể hỏi đáp các thông tin đặc thù của Việt Nam (quy định, văn bản pháp luật) hoặc các thông tin mang tính bản địa (lịch sử, văn học, danh lam thắng cảnh, đặc sản địa phương).
Công ty Cổ phần VinBigdata có hệ thống cơ sở dữ liệu lên tới 3.500 Terabyte. Hệ thống có hàng trăm nghìn giờ dữ liệu giọng nói, hình ảnh, thông tin được làm sạch, xử lí, phân loại, sử dụng cho việc huấn luyện AI cùng hạ tầng R&D. Hạ tầng này gồm hàng chục cụm máy chủ NvidiaDGX A100. Công ty cũng sở hữu đội ngũ giáo sư, nhà khoa học, chuyên gia công nghệ người Việt từ khắp nơi trên thế giới.
Hoài Phương