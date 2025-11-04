Cabin AI, do kỹ sư Việt phát triển, có khả năng dịch lời nói sau 3-5 giây nhờ giải pháp học trước ngữ cảnh của cuộc hội thoại.

Tại diễn đàn về đổi mới sáng tạo quốc tế ở TP HCM cuối tháng 10, hàng trăm khách tham dự được đề nghị quét mã QR trước khi vào sự kiện. Đường dẫn đưa họ tới trang web cho phép chọn loại ngôn ngữ muốn theo dõi, kèm theo tùy chọn nghe hoặc đọc phụ đề. Thay vì nghe phiên dịch viên qua tai nghe, họ có thể theo dõi nội dung ngay trên thiết bị cá nhân.

Đây là một trong những ứng dụng của Cabin AI - dự án do đội ngũ của nhà phát triển Trần Vũ Anh thực hiện nhằm tối ưu hóa hiệu quả dịch thuật tại sự kiện.

Sử dụng Cabin AI xem nội dung phiên dịch trên điện thoại Người dùng Cabin AI xem nội dung phiên dịch trên điện thoại. Video: Lưu Quý

Vũ Anh cho biết Cabin AI ra đời từ một bài toán "tưởng quen mà khó", đó là làm sao để máy có thể "dịch đuổi" khi người nói vẫn đang nói, thay vì chờ kết thúc câu. "Chúng tôi muốn tạo ra một công cụ có thể phản ứng như con người, vừa nghe, vừa hiểu, vừa dịch, bằng sức mạnh của trí tuệ nhân tạo", anh nói.

Từ thành công với nền tảng dịch tài liệu DocTranslate.io, nhóm đã dành hơn một năm phát triển Cabin AI nhằm xử lý nội dung đa phương tiện, gồm dịch thuật âm thanh và video.

Với đặc thù của việc phiên dịch trực tiếp, theo Vũ Anh, hai trở ngại lớn cần giải quyết là tốc độ và độ chính xác trong nhận diện giọng nói. Trước đây, hệ thống AI thường chờ người nói hết câu mới xử lý, sau đó cần thêm thời gian dịch, khiến cuộc đối thoại bị ngắt quãng và chậm trễ. Đặc biệt khi gặp tên riêng, ngày tháng, con số hay thuật ngữ nước ngoài, hệ thống thường dịch sai hoặc bỏ qua do phát âm không chính xác hoặc thiếu ngữ cảnh.

Giao diện trang web của Cabin AI cho phép người dùng chọn ngôn ngữ mong muốn. Ảnh: Lưu Quý

Nhóm kỹ sư DocTranslate khắc phục bằng cách áp dụng các mô hình AI chuyên biệt, tập trung riêng vào nhận diện giọng nói và dịch thuật, được tinh chỉnh dựa trên dữ liệu do công ty thu thập và xử lý.

"Điểm đặc biệt của giải pháp là hệ thống cho phép AI 'học trước' bối cảnh của sự kiện, thông qua nội dung, slide trình bày, chủ đề thảo luận", Vũ Anh nói. "Nhờ vậy, Cabin AI có thể hiểu sâu bối cảnh và dịch chính xác cả những thuật ngữ chuyên ngành phức tạp, đạt độ chính xác cao với độ trễ thấp".

Thực tế, trong điều kiện lý tưởng, Cabin AI mất 3-5 giây để phản hồi kể từ khi người nói bắt đầu. Độ chính xác cũng được đánh giá ở mức tốt, hiểu được những trường hợp phát âm khác biệt hoặc có yếu tố pha trộn giữa các ngôn ngữ. Nền tảng hiện hỗ trợ hơn 32 ngôn ngữ, như tiếng Việt, Anh, Trung, Nhật, Hàn, Thái, Pháp, Đức, Tây Ban Nha, Italy, Nga, Hindi...

Trong tháng 10, giải pháp được "thử lửa" tại nhiều sự kiện lớn như Diễn đàn Đổi mới Sáng tạo Mở, Hội thảo Khoa học về Công nghệ Lượng tử. Tại đây, Cabin AI đảm nhận vai trò phiên dịch chính thức cho toàn bộ chương trình với hàng chục phiên thảo luận không có kịch bản trước. "Phụ đề xuất hiện gần như đồng thời với lời nói, cảm giác người nói đang diễn đạt bằng tiếng mẹ đẻ của tôi", một đại biểu nhận xét.

Màn hình hiển thị phụ đề với bản dịch từ Cabin AI, đồng thời cho phép người dùng quét mã QR để xem trên điện thoại. Ảnh: NVCC

Cabin AI được kỳ vọng có thể bổ sung cho lực lượng phiên dịch viên con người, với khả năng triển khai đa dạng ngôn ngữ, chi phí thấp. Theo ước tính, đơn vị tổ chức sự kiện có thể triển khai giải pháp với mức giá linh hoạt, khoảng 500.000-1.000.000 đồng mỗi giờ, tùy theo quy mô sự kiện, số lượng ngôn ngữ và nhu cầu hỗ trợ kỹ thuật.

Ngoài ra, Cabin AI cũng giúp đơn giản hóa toàn bộ quá trình vận hành, thay vì phải chuẩn bị hệ thống tai nghe phức tạp hoặc thuê nhiều phiên dịch viên cho từng ngôn ngữ, từng phiên hội thảo diễn ra song song. Sau sự kiện, hệ thống tự động xuất biên bản hoặc tóm tắt nội dung, giúp tiết kiệm thời gian và công sức cho đội ngũ tổ chức.

Theo Vũ Anh, không chỉ phục vụ các sự kiện offline quy mô lớn, Cabin AI cũng được tối ưu cho cuộc họp trực tuyến hoặc trao đổi trực tiếp. "Giải pháp giúp đội nhóm đa quốc gia giao tiếp hiệu quả mà không còn rào cản ngôn ngữ", anh nói.

Trần Vũ Anh là một trong 10 lãnh đạo công nghệ trẻ được vinh danh tại CTO Summit 2022 do VnExpress tổ chức. Giải pháp Doctranslate do Vũ Anh và cộng sự phát triển trước đó từng vào Top 5 Techfest do Bộ Khoa học và Công nghệ tổ chức, cũng như được chọn vào chương trình Google for Startups Accelerator.

Lưu Quý