Giả giọng nói - nội dung AI khó phát hiện nhất

So với ảnh hay video, âm thanh tạo bởi AI được đánh giá là khó phát hiện nhất, gây lo ngại trong việc phát hiện nội dung giả mạo.

Theo Politico, một cuộc gọi giả giọng Tổng thống Mỹ Joe Biden đã được thực hiện vào 21/1, hai ngày trước cuộc bầu cử sơ bộ ở New Hampshire, kêu gọi cử tri đảng Dân chủ không đi bỏ phiếu. Văn phòng Tổng chưởng lý New Hampshire đang điều tra cuộc gọi mạo danh này.

Trong khi đó, theo Baltimore Banner, ngày 23/1, hiệu trưởng trường trung học Pikesville ở quận Baltimore cũng gửi nội dung phân biệt chủng tộc đến học sinh, nhưng sự việc đang điều tra liệu chúng có phải do AI tạo ra hay không.

Đây được xem là những vụ giả mạo âm thanh gần nhất bằng AI. Các chuyên gia cho rằng chúng sẽ ngày càng phổ biến trong tương lai và sẽ rất khó phát hiện do công cụ luôn được nâng cấp. "Hàng chục sản phẩm được tạo ra để cố gắng phát hiện âm thanh AI, nhưng chính chúng cũng bị hạn chế bởi AI", một chuyên gia nói với NBC News.

Minh họa AI âm thanh của ExtremeTech. — Minh họa AI âm thanh của *ExtremeTech.*

Phát hiện khó khăn

Theo TNW, hệ thống phát hiện âm thanh giả mạo hoạt động rất khác cách con người lắng nghe. Chúng phân tích các mẫu âm thanh để tìm thành phần giả như tần số bị thiếu, cũng như tập trung vào những khía cạnh cụ thể của lời nói như cách người nói kèm hơi thở, cường độ, ngữ điệu lên xuống thế nào.

Reality Defender, công ty phát hiện deepfake nổi tiếng tại New York, cho biết họ sử dụng AI để phát hiện AI. Nhân viên công ty huấn luyện mô hình của họ bằng dữ liệu đầu vào là nội dung thật và do AI tạo ra.

Ben Colman, CEO Reality Defender, cho biết nền tảng dán nhãn rõ ràng đâu là thật và đâu là giả với mục tiêu học cách ước tính khả năng thứ gì đó có được tạo ra bởi AI hay không.

"Nhưng chúng tôi không bao giờ nói cỗ máy của mình chính xác 100%", Colman cho hay. "Xác suất cao nhất là 99%, bởi việc vận hành luôn có tính xác suất".

Colman cho biết sự đa dạng về giọng nói và ngôn ngữ của con người khiến công việc phân biệt âm thanh thật và do AI tạo trở nên khó khăn. Các yếu tố gây ảnh hưởng có vùng, ngôn ngữ, phương ngữ và độ tuổi. "Vì vậy, chúng ta phải suy nghĩ về từng biến số riêng lẻ", ông nói.

Trong khi đó, với một lĩnh vực đang phát triển như AI, có rất ít tiêu chuẩn để đo lường độ tin cậy của công cụ phát hiện âm thanh deepfake. "Hầu hết chương trình phát hiện đều được đào tạo để xác định thuật toán về âm thanh deepfake hiện có. Điều này khiến chúng đi sau một bước so với những cải tiến mới. AI thực sự rất tốt trong việc cho bạn biết về những điều nó đã thấy trước đây, nhưng lại không tốt trong việc suy luận về những điều nó chưa thấy", Patrick Traynor, giáo sư chuyên về khoa học máy tính và mạng điện thoại tại Đại học Florida, cho biết.

Theo Neil Zhang, nhà nghiên cứu về máy học tại Đại học Rochester, rất khó đánh giá các công cụ phát hiện âm thanh deepfake, nhưng "có vẫn tốt hơn không có gì".

Cần có luật

Theo Zhang, kể cả những công cụ phát hiện deepfake được đánh giá tốt cũng chỉ đạt hiệu suất cao trên một số bộ dữ liệu nhất định, chưa chắc áp dụng thành công trong thế giới thực. Do đó, ông kỳ vọng vấn đề phải được giải quyết tốt nhất khi dùng luật pháp.

Chính phủ Mỹ hiện tính đến việc ban hành một lệnh điều chỉnh sâu rộng cho AI. Theo CNBC, ông Biden đang giao nhiệm vụ cho Bộ Thương mại Mỹ ban hành hướng dẫn cho các công ty AI của nước này về cách họ nên "đóng dấu" nội dung để giúp người dùng phân biệt. Dù vậy, chưa có quy định nào để quản lý nội dung deepfake. Nhưng cả khi có hiệu lực, nó cũng bị đánh giá "đã đi sau ngành".

Theo Vandana Janeja, giáo sư hệ thống thông tin tại Đại học Maryland, việc tìm hoặc tạo âm thanh giả bằng công cụ AI hiện rất phổ biến. "Chỉ cần tìm công cụ giả giọng AI trên Google, hàng nghìn kết quả hiển thị lập tức. Tội phạm có thể sử dụng những thứ này mà không gặp phải rào cản nào", Janeja nói.

Giáo sư Hany Farid tại Đại học California Berkeley khuyên mọi người lắng nghe để biết liệu bản ghi có phải là âm thanh do AI tạo hay không. Âm thanh deepfake hiện ít có ngữ cảnh như tiếng hít thở giữa các từ phát ra, các chữ giãn cách quá đều đặn, không giống cách người thật nói chuyện.

"Chúng ta cần quay lại những điều đơn giản, như ai đã gửi đoạn âm thanh này, có đáng tin cậy không, cách nói chuyện thế nào... để có thể phát hiện deepfake", ông nói thêm.

Bảo Lâm

Trở lại Công nghệTrở lại Công nghệ