"Siri thế hệ kế tiếp sẽ không nhấn giọng sai âm tiết", đó là lời hứa của Apple tại sự kiện WWDC 2017 diễn ra tuần trước. Chứng minh trên sân khấu, phó chủ tịch cấp cao phụ trách về công nghệ phần mềm của Apple, Craig Federighi, đã hỏi Siri về thời tiết.
Siri trả lời: "Đây là dự báo cho ba ngày tiếp theo: Nắng, nắng và nắng".
Mỗi từ "nắng" mang một âm điệu có chút khác biệt. Mặc dù Federighi tuyên bố nó "rất mạnh mẽ", các khán giả ở phía dưới lại không có nhiều phản ứng gì.
Nhưng theo Mashble, đó là một chiến thắng đáng ghi nhận. Bởi với phiên bản iOS 11 sắp tới, phần mềm 6 tuổi Siri đã phát âm tự nhiên đến mức không ai nhận ra đó chỉ là một cỗ máy. Đây là một phần kết quả từ phương thức mà Siri đã được xây dựng lúc ban đầu.
Susan Bennett, người phụ nữ được coi là tiếng nói đầu tiên của Siri, đã kể lại với trang The Guardian hồi cuối năm ngoái rằng các nhà phát triển đã ghi lại "hàng trăm rồi hàng trăm câu và cụm từ được tạo ra để có thể có được tất cả các kiểu kết hợp âm thanh trong các cụm từ". Không phải ghi âm một câu hoàn chỉnh, Bennett và những người khác đôi khi phải nói cả những câu không có ý nghĩa nào.
Mục đích cuối cùng là để Siri có thể tự xây dựng những lời nhắn bằng âm thanh hợp lý cho một loạt các câu hỏi đầy cảm xúc, ngay cả khi nó không nghe được yêu cầu chính xác từ con người.
Hiện tại, trên tất cả các thiết bị từ iPhone đến Apple TV, trên Mac và cả Apple Watch, Siri đang phải xử lý khoảng 2 tỷ yêu cầu thoại mỗi tuần. Dù không tránh khỏi các sai sót cũng như thỉnh thoảng không thể phản hồi, có một sự thật rằng Siri đang dần thay đổi.
Năm ngoái, Apple cho biết đã thực hiện một cuộc "cấy ghép não", khi bắt đầu áp dụng học máy (machine learning) vào quá trình xử lý ngôn ngữ tự nhiên và nhận thấy sự cải tiến trong việc nhận dạng giọng nói cũng như vấn đề truy vấn tiếng ồn nền. Đây là là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển các kĩ thuật cho phép máy tính có thể "học", dựa trên việc phân tích các tập dữ liệu.
Việc xây dựng giọng nói của Siri vẫn bắt đầu với việc trích xuất các âm thanh đã được ghi âm, kết hợp với nhau trong phản ứng âm thanh của Siri. Dù không giải thích rõ nhưng Apple nói Siri có thể nói bất cứ điều gì. Đó là vì công nghệ được sử dụng để tạo ra các câu có ý nghĩa, giúp Siri hiểu rõ hơn về người sử dụng. Nó phân tích các sắc thái trong lời nói của con người như khi mọi người hít thở, khi cường độ tiếng nói tăng lên và khi kết thúc một câu, với sự nhấn mạnh và ngữ điệu.
Thuật toán cũng xem xét cách xây dựng câu và lý giải tại sao cùng một từ được đặt ở ba vị trí khác nhau trong một câu nên được phát âm theo ba cách rõ ràng khác nhau. Đây là những điều con người không thực sự quan tâm hoặc chú ý vì đó là cách tất cả chúng ta nói chuyện.
Apple muốn xóa nhòa khoảng cách này, nhưng không phải với mục đích rằng Siri là con người, mà để mang lại sự khác biệt hơn trong cách giao tiếp. Trong iOS 11, người dùng có thể đi sâu vào các nội dung phản hồi của Siri bằng cách chạm vào màn hình và sau đó hỏi một câu hỏi tiếp theo. Điều đó càng thúc đẩy nhà sản xuất phải làm cho giọng nói của Siri càng thêm chân thực nhất có thể.
Siri hiện đã có mặt tại 36 quốc gia, với 21 ngôn ngữ khác nhau và Apple chuẩn bị tung ra một tính năng dịch mới dành cho 5 ngôn ngữ trong thời gian sắp tới.