
Jules Rodriguez biểu diễn hài kịch trên sân khấu. Ảnh: ElevenLabs
Khả năng nói của Jules Rodriguez, người đàn ông 40 tuổi sống tại Miami, suy giảm dần kể từ khi được chẩn đoán mắc bệnh xơ cứng teo cơ một bên (ALS) vào năm 2020. Năm 2024, các bác sĩ lo ngại rằng Rodriguez không thể tự thở lâu hơn nữa. Vì vậy, anh được đặt một ống nhỏ vào khí quản để giúp hô hấp. Phẫu thuật mở khí quản giúp kéo dài cuộc sống, nhưng cũng lấy đi giọng nói.
Rodriguez cùng vợ, Maria Fernandez, nghĩ rằng họ sẽ không bao giờ nghe thấy giọng nói của anh nữa. Tuy nhiên, trí tuệ nhân tạo (AI) đã mang đến một điều kỳ diệu, cho phép Rodriguez có thể giao tiếp bằng giọng nói cũ.
"Được nghe lại giọng nói của mình sau một thời gian dài giúp tôi phấn chấn hơn", Rodriguez chia sẻ. Hiện tại, anh giao tiếp bằng cách gõ các câu nhờ một thiết bị theo dõi chuyển động mắt. Những câu này sau đó được cất lên bằng bản sao giọng nói của Rodriguez, giúp nâng cao khả năng tương tác và kết nối với người khác. Anh thậm chí sử dụng nó để biểu diễn hài kịch trên sân khấu.
Rodriguez là một trong hơn 1.000 người gặp khó khăn về giọng nói đã sử dụng công cụ nhân bản giọng nói mà công ty Mỹ ElevenLabs phát triển và cung cấp miễn phí cho người bệnh. Giống như nhiều công nghệ mới khác, các bản sao giọng nói AI này chưa hoàn hảo và một số người thấy chúng không thiết thực trong cuộc sống hàng ngày.
Tuy nhiên, chúng là sự cải tiến rất lớn so với công nghệ giao tiếp cũ và đang cải thiện cuộc sống của những người mắc bệnh thần kinh vận động, theo Richard Cave, nhà trị liệu ngôn ngữ và giọng nói tại Hiệp hội Bệnh thần kinh vận động ở Anh. "Đây thực sự là AI vì mục đích tốt đẹp", Cave nói.
Bản sao giọng nói AI giúp Jules Rodriguez tìm lại giọng nói đã mất. Video: MIT Technology Review
Rodriguez bắt đầu có các triệu chứng của ALS vào mùa hè năm 2019. Giống như những bệnh nhân ALS khác, anh được khuyên nên "lưu trữ" giọng nói của mình - nói hàng trăm cụm từ và ghi âm lại. Những bản ghi âm này được sử dụng để tạo ra "giọng nói lưu trữ" cho các thiết bị giao tiếp. Tuy nhiên, giọng nói này bị giật cục và máy móc.
ElevenLabs thành lập vào năm 2022 và bắt đầu phát triển giọng nói AI để dùng cho phim, chương trình truyền hình, podcast. Mục tiêu ban đầu là tăng chất lượng lồng tiếng, khiến giọng lồng tiếng bằng ngôn ngữ khác có vẻ tự nhiên hơn, theo Sophia Noel, người giám sát quan hệ hợp tác giữa công ty với các tổ chức phi lợi nhuận.
Nhưng sau đó, trưởng nhóm kỹ thuật của Bridging Voice - tổ chức hỗ trợ bệnh nhân ALS giao tiếp - nói rằng bản sao giọng nói của ElevenLabs rất hữu ích với họ. Tháng 8/2024, ElevenLabs triển khai chương trình cung cấp công nghệ miễn phí cho những người gặp khó khăn khi nói.
Công nghệ giúp việc tái tạo giọng nói của các bệnh nhân trở nên nhanh và dễ dàng hơn nhiều. Thay vì phải ghi âm hàng trăm cụm từ, người dùng có thể tải lên các bản ghi âm giọng nói từ tin nhắn thoại hoặc video cũ. "Cần ít nhất một phút để tạo ra bất kỳ thứ gì, nhưng lý tưởng nhất là khoảng 30 phút. Bạn tải nó lên ElevenLabs. Sau khoảng một tuần, giọng nói sẽ được tạo ra", Noel nói.
Trong khi giọng nói lưu trữ nghe máy móc, bản sao giọng nói nghe rất tự nhiên. Dù từ ngữ phát ra vẫn hơi nhanh và chất lượng cảm xúc hơi thiếu, nhưng đó đã là một bước tiến khổng lồ.
Cave giới thiệu công nghệ này cho những người mắc bệnh neuron vận động (MND) vài tháng trước. 130 người trong số họ đã bắt đầu sử dụng công nghệ này và phản hồi tốt. Các bản sao giọng nói nghe giống thật hơn nhiều so với giọng nói lưu trữ. "Chúng có những khoảng dừng để thở, tiếng ừm, ờ, đôi khi còn lắp bắp. Với tôi, điều đó có vẻ rất chân thật vì tôi cũng muốn có giọng nói tổng hợp lắp bắp. Đó chính là con người tôi", Cave, người bị nói lắp nhẹ, cho biết.

Joyce Esser cùng chồng đi nghỉ ở Maldives. Ảnh: Joyce Esser
Bản sao giọng nói vẫn chưa phải là công cụ hỗ trợ phát âm hoàn hảo. Để soạn lời cho bản sao giọng nói, các từ phải được gõ ra. Có nhiều thiết bị giúp bệnh nhân MND gõ bằng ngón tay, mắt hoặc chuyển động lưỡi. Cách này hiệu quả với đoạn văn chuẩn bị trước, nhưng việc đánh máy không thể hoàn thành ngay lập tức và tạo ra những khoảng dừng cho mọi cuộc trò chuyện trực tiếp.
Joyce Esser, một trong 130 người mà Cave giới thiệu, rất mừng khi có thể tái tạo giọng nói cũ. Tuy nhiên, bà thấy công nghệ này không thiết thực. "Nó tốt cho những đoạn văn được chuẩn bị trước, nhưng không phù hợp để trò chuyện", bà chia sẻ. Esser cũng nhận thấy, khi sử dụng bản sao giọng nói, âm lượng quá thấp khiến mọi người khó nghe, giọng nói cũng quá nhanh và không đủ biểu cảm. Bà mong muốn có thể dùng các biểu tượng cảm xúc (emoji) để thể hiện sự phấn khích hoặc tức giận.
"Vấn đề tôi gặp phải là khi viết thứ gì đó dài, giọng AI dường như trở nên mệt mỏi", Rodriguez chia sẻ.
"Chúng tôi dường như đã có tính chân thực của giọng nói. Điều chúng tôi cần bây giờ là tính chân thực của việc truyền tải", Cave cho biết.
Tổ chức từ thiện Scott-Morgan Foundation, đang tìm cách liên kết bản sao giọng nói của ElevenLabs với một công nghệ bổ sung - hình đại diện siêu chân thực cho bệnh nhân MND. Những bản sao kỹ thuật số này có ngoại hình và giọng nói giống người, đồng thời có thể nói trên màn hình.
Thiết lập hình đại diện không hề đơn giản. Để tạo ra hình đại diện, Erin Taylor, người được chẩn đoán mắc ALS khi mới 23 tuổi, đã phải nói 500 câu trước camera và đứng 5 tiếng. Tuy nhiên, kết quả thu được rất ấn tượng. Taylor đã giới thiệu hình đại diện của mình tại một hội thảo công nghệ hồi tháng 1 với bài phát biểu được đánh máy trước.
"Biểu cảm khuôn mặt là một phần quan trọng trong giao tiếp nên ý tưởng về hình đại diện có vẻ rất hay. Hình đại diện không che khuất khuôn mặt người dùng... bạn vẫn có thể nhìn vào mắt và tâm hồn của họ", Esser nói.
Hình đại diện AI của Erin Taylor. Video: DeepBrain AI
Scott-Morgan Foundation sẽ tiếp tục hợp tác với các công ty công nghệ để phát triển thêm nhiều công cụ giao tiếp cho những người cần chúng. ElevenLabs cũng có kế hoạch hợp tác với những tổ chức khác chuyên hỗ trợ người gặp khó khăn về giọng nói để có thêm nhiều bệnh nhân tiếp cận được với công nghệ mới. "Mục tiêu của chúng tôi là trao sức mạnh giọng nói cho 1 triệu người", Noel cho biết.
Trong khi đó, Cave, Esser và Rodriguez rất sẵn lòng phổ biến thông tin về bản sao giọng nói cho những người khác trong cộng đồng MND. "Đây thực sự là công nghệ thay đổi cuộc chơi với chúng tôi. Nó không giúp lấy đi phần lớn những thứ chúng tôi đang phải đối mặt, nhưng thực sự giúp tăng cường mối liên kết mà chúng tôi có như một gia đình", Fernandez chia sẻ.
Thu Thảo (Theo MIT Technology Review)