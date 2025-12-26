CMC ra mắt mô hình ngôn ngữ lớn pháp lý và bộ chuẩn đánh giá với mục tiêu tạo trợ lý ảo pháp lý cho người Việt.

Công ty CMC OpenAI (C-OpenAI) công bố mô hình ngôn ngữ lớn pháp lý tiếng Việt CMC-AI-Legal-32B, đồng thời giới thiệu bộ chuẩn đánh giá VLegal-Bench do đơn vị phát triển. Đây là hai cấu phần nền tảng cho việc phát triển trợ lý ảo pháp lý phục vụ người dùng Việt Nam.

CMC-AI-Legal-32B được xây dựng và tinh chỉnh chuyên sâu về pháp luật Việt Nam. Khi đánh giá trên VLegal-Bench, mô hình dẫn đầu về hiệu năng tổng thể, đứng top 1 trong 6/22 tác vụ, như bài toán yêu cầu suy luận và lập luận pháp lý nhiều lớp.

Nhóm nghiên cứu cho biết, do được huấn luyện theo ngữ cảnh và chuẩn viện dẫn pháp luật Việt Nam, CMC-AI-Legal-32B có lợi thế so với các mô hình ngôn ngữ lớn của nước ngoài như GPT-4o, Claude hay Gemini khi xử lý, suy luận nội dung chuyên biệt này.

Nhóm kỹ sư phát triển bộ chuẩn đánh giá VLegal - Bench. Ảnh: CMC

Để huấn luyện mô hình, nhóm xây dựng một bộ chuẩn chuyên biệt, nhằm đánh giá riêng về pháp lý. Đây là phần việc mà các bộ chuẩn quốc tế khó làm thay, do khác biệt về ngôn ngữ và hệ thống pháp luật. VLegal-Bench gồm 10.450 mẫu dữ liệu có đáp án chuẩn, chia thành 22 tác vụ, thiết kế theo 5 cấp độ suy luận tăng dần. Bộ chuẩn được thiết kế theo đặc thù riêng của Việt Nam. Mỗi mẫu dữ liệu gắn với nguồn văn bản pháp luật cấp trung ương để đảm bảo khả năng kiểm chứng.

Ông Nguyễn Tiến Đồng, Giám đốc kỹ thuật CMC OpenAI, cho biết việc xây dựng bộ chuẩn đánh giá là "bài toán khó" vì yêu cầu cả về mặt kỹ thuật và nghiệp vụ luật. Theo ông, thách thức lớn nhất là đảm bảo tính đúng đắn pháp lý, khả năng tái kiểm chứng và sự tương thích với các chuẩn đánh giá mô hình ngôn ngữ lớn trên thế giới.

"Chúng tôi theo đuổi việc phát triển mô hình ngôn ngữ lớn tiếng Việt và AI chuyên biệt theo từng lĩnh vực", Tổng giám đốc C-OpenAI Đặng Văn Tú nói. Song song, công ty sẽ công bố mã nguồn, dữ liệu, quy trình đánh giá và kêu gọi chuyên gia trong và ngoài nước tham gia vào việc chuẩn hóa để bộ công cụ ngày một tốt hơn.

AI hiện là một trong 11 nhóm công nghệ thuộc Danh mục công nghệ chiến lược do Thủ tướng ký ban hành hồi tháng 6, với các nhóm sản phẩm như mô hình ngôn ngữ lớn tiếng Việt, trợ lý ảo và AI chuyên ngành.

Tại Diễn đàn AI trong kỷ nguyên số tổ chức hồi cuối tháng 8, Bộ trưởng Khoa học và Công nghệ Nguyễn Mạnh Hùng nhận định, AI đang dần trở thành một loại hạ tầng quốc gia, tương tự điện, viễn thông hay Internet. Theo ông, việc phát triển các ứng dụng AI chuyên ngành không chỉ giúp giải quyết các bài toán quốc gia mà còn tạo điều kiện để doanh nghiệp Việt Nam hoàn thiện và nâng cao năng lực công nghệ.

Nhiều doanh nghiệp Việt khác cũng theo đuổi việc phát triển mô hình ngôn ngữ lớn tiếng Việt, nhưng ở mức tổng quát hơn, thay vì theo hướng chuyên ngành. Mô hình ngôn ngữ lớn tiếng Việt của Zalo AI hiện có 13 tỷ tham số và được triển khai trong nhiều ứng dụng thực tế. Hồi tháng 9, VNPT đề xuất Chính phủ giao nhiệm vụ phát triển mô hình ngôn ngữ lớn tiếng Việt, làm nền tảng cho các ứng dụng AI do người Việt xây dựng.

Ở một hướng khác, ViGen xây dựng bộ dữ liệu tiếng Việt mã nguồn mở, nhằm thúc đẩy ứng dụng AI tại Việt Nam. Dự án do Trung tâm Đổi mới sáng tạo quốc gia (NIC) kết hợp cùng nhiều tổ chức, trong đó có AI for Vietnam và Meta.

Trọng Đạt