Vi xử lý đi tìm lời nói của con người

Thử tưởng tượng khi muốn tìm câu "Chúng mình yêu nhau nhé!" trong một video nào đó, bạn chỉ cần gõ chữ hoặc nói ra. Đó chính là giấc mơ của ngành máy tính. Khi phần mềm bất lực trước việc này, các nhà nghiên cứu Mỹ xoay sang thử nghiệm với chip.

Ảnh: Speech.

Các chuyên gia tại đại học Carnegie Mellon (Mỹ) đang triển khai dự án với 2 phương pháp, một dùng chip tự tạo mang mã hiệu ASIC (application-specific integrated circuits), một dùng chip cấu hình lại mang tên FPGA (field programmable gate arrays).

Họ đã thử nghiệm chip FPGA cấp thấp để nhận ra tiếng phát âm trong phạm vi 1.000 từ. Hệ thống có khả năng nhận thấy ngay những câu nói ngắn với độ chính xác tương đương phần mềm nhận biết giọng nói mang tên Sphinx mà đại học này từng phát triển.

Công việc của chip điện tử bé xíu bắt đầu bằng hoạt động chuyển đổi tín hiệu âm thanh thành sự kết hợp giữa các tiếng ồn với khoảng 50 âm khác nhau. Điều này khá phức tạp. Ví dụ: âm "i" (tiếng Anh) trong từ "five" và "nine" sẽ khác nhau do các phụ âm trước và sau nó tác động. Như vậy, trên thực tế, chip phải kết hợp khoảng 1.000 tiếng ồn kiểu này.

Sau đó, thiết bị sẽ so sánh những âm đó với các âm trong từ được phát ra trong thực tế. Nó sẽ tìm sự kết hợp giữa các từ (theo bộ đôi, bộ ba...) để tăng cường độ chính xác. Yêu cầu của chip đối với hệ thống là bộ nhớ cao, băng thông liên lạc lớn để quá trình so sánh này diễn ra nhanh chóng.

Trong tương lai, khi công nghệ phát triển và chi phí sản xuất giảm đi, người tiêu dùng còn có cơ hội mơ đến cảnh điện thoại di động ghi chính tả bằng chữ cho mình.

Thuỳ Hương (theo CNet)

Trở lại Khoa học công nghệTrở lại Khoa học công nghệ