Theo hãng phần mềm, Vall-E có thể bắt chước âm sắc và cách nói của người thật bằng cách lắng nghe giọng của họ trong ba giây. Dù âm thanh nghe vẫn hơi giống giọng nói robot, kết quả được đánh giá là rất ấn tượng.
Microsoft gọi công nghệ của hãng là "Mô hình ngôn ngữ codec thần kinh". Codec là công cụ mã hóa xử lý video và lưu trữ trong một luồng byte. Codec sử dụng các thuật toán để thu nhỏ kích thước file âm thanh hoặc video, sau đó giải nén cho các mục đích khác nhau. Có khá nhiều codec đang tồn tại, sử dụng những công nghệ khác nhau.
Vall-E được xây dựng trên nền tảng EnCodec, một codec âm thanh sử dụng kỹ thuật máy học được Meta phát triển năm 2022. Nếu như trước đây, các phương pháp chuyển văn bản thành giọng nói thường ở dạng sóng, Vall-E tạo codec âm thanh riêng biệt bằng cách thu nhận và phân tích âm thanh của mỗi người, sau đó chia nhỏ thông tin thành các phần gọi là "token" thông qua EnCodec.
Cuối cùng, Vall-E sử dụng dữ liệu huấn luyện để khớp với những gì nó "biết" về ngữ điệu giọng nói, sau đó có thể nói các cụm từ khác theo đúng những gì "học" được. Toàn bộ quá trình được thực hiện trong ba giây - mức nhanh nhất so với bất kỳ hệ thống AI bắt chước ngôn ngữ nào hiện nay.
Dữ liệu huấn luyện được dùng để dạy Vall-E là một thư viện chứa 60.000 giờ nói tiếng Anh từ hơn 7.000 người. Theo Microsoft, thư viện này sẽ được bổ sung theo thời gian và không chỉ giới hạn tiếng Anh mà còn các ngôn ngữ khác.
Vall-E được kỳ vọng sẽ ứng dụng trong phần mềm chuyển văn bản thành giọng nói chất lượng cao. Chẳng hạn, người dùng có thể sử dụng nó để chỉnh sửa câu từ trong bản ghi âm giọng nói bất kỳ, tất nhiên là được phép; hoặc có thể tạo nội dung âm thanh, như thuyết minh cho sách nói.
Dù vậy, giới chuyên gia lo ngại Vall-E có thể bị dùng cho mục đích xấu. AI này có thể giả dạng giọng để lừa đảo, thực hiện hành vi tống tiền. Nếu kết hợp với video deepfake, mức độ nguy hiểm có thể nhân lên nhiều lần.
Microsoft cũng đóng góp dấu ấn với một siêu AI đang thu hút sự chú ý là ChatGPT. Hãng đã rót một tỷ USD vào OpenAI, đơn vị đứng sau ChatGPT, từ năm 2019. Tập đoàn phần mềm được dự đoán sẽ tăng giá trị và lợi nhuận đầu tư khi ChatGPT bùng nổ, cũng như có thể tích hợp AI vào công cụ tìm kiếm Bing để cạnh tranh với đối thủ Google.
Bảo Lâm (theo GizChina/VallE)