Stern, từng đoạt giải Emmy và hiện là biên tập viên của WSJ, cho biết đã thử nghiệm Synthesia vài tháng qua. Synthesia, công cụ AI có thể "nhân bản" bằng cách tạo hình đại diện ảo, hiện tính phí theo năm với giá 1.000 USD. Người sử dụng sẽ ghi lại âm thanh và video cho AI này "học". Sau đó, khi nhập văn bản bất kỳ, họ sẽ nhận lại một video mới kèm giọng của họ nói về nội dung đó.
"Vì làm nhiều việc về thoại và video, tôi nghĩ Synthesia có thể giúp tôi làm việc hiệu quả hơn và bớt đi một số công đoạn cực nhọc. Rốt cuộc, đó chỉ là lời hứa của AI", Stern cho hay.
Stern đến phòng thu và ghi video có tổng độ dài 30 phút và các đoạn âm thanh khoảng hai tiếng nhằm huấn luyện "bản sao" của mình. Bà đặt tên cho phiên bản ảo này là Joanna AI.
Để ra lệnh cho Joanna AI nhanh hơn, Stern kết hợp ChatGPT tạo văn bản. "Khi bắt đầu dán văn bản vào Synthesia với nội dung liên quan đến thủ thuật iOS và nhấn 'Khởi tạo', tôi đột nhiên thấy mình đang nói trên video. Khuôn mặt, giọng nói tạo cảm giác như tôi đang đứng trước gương vậy, dù cử chỉ tay và biểu cảm khuôn mặt hơi khác một chút. Mọi thứ rất thuyết phục", Stern nhận xét.
Bà tiếp tục thử tạo video với nội dung đơn giản hơn như "Xin chào mọi người" hay "Xin lỗi, tôi bị tắt tiếng", sau đó dùng phần mềm để đưa chúng vào Google Meet. Rất ít người trong cuộc họp nhận ra họ đang họp với AI.
Stern cũng sử dụng một AI khác từ ElevenLabs với tính năng tương tự. Bà sử dụng video đã đăng trên mạng xã hội để huấn luyện cho AI. "Trong vòng chưa đầy hai phút, nó đã nhân bản giọng nói của tôi. Nó có giá chưa tới 5 USD mỗi tháng cho gói rẻ nhất", bà ngạc nhiên.
Khả năng lạm dụng
Stern sử dụng cả hai công cụ AI để "thử" người thân. Bà yêu cầu AI gọi video cho em gái, sau đó là bố mình. Cả hai bị thuyết phục, nhưng nhận xét "nó như bản ghi âm" hoặc do bot tạo vì các câu nói "không có chỗ dừng lấy hơi".
Tuy nhiên, khi bà ra lệnh cho Joanna AI kết nối với ngân hàng Chase, công cụ này đã qua mặt được hệ thống. "Ở bước xác thực sinh trắc học, khi hệ thống tự động hỏi tên và địa chỉ, Joanna AI đã trả lời chính xác. Hệ thống nhận ra giọng tôi và ngay lập tức kết nối", Stern cho biết. Bà liên lạc trực tiếp với ngân hàng để nói mình không có giao dịch nào với Chase.
Hany Farid, chuyên gia pháp y kỹ thuật số tại Đại học California, cho rằng khi người dùng đã tải dữ liệu kỹ thuật số của bản thân lên Internet, họ cần phải chấp nhận việc chúng có thể bị sử dụng cho mục đích lạm dụng. "Cách phát hiện âm thanh và video giả mạo dạng này ư? Theo tôi chỉ có ba từ: Chúc may mắn", ông nói.
Stern nói bà may mắn vì người thân nhận ra giọng AI, nhưng điều này có thể được cải tiến bằng thuật toán theo thời gian. Bà lo ngại công cụ như Synthesia hay ElevenLabs bị sử dụng cho mục đích lừa đảo.
Theo đại diện Synthesia, chính sách của nền tảng yêu cầu người dùng cân nhắc trước khi tải âm thanh và video để tạo phiên bản ảo của chính mình, đồng thời sẽ loại bỏ nội dung có hại trên đó. Trong khi đó, ElevenLabs nói sẽ chấm dứt các tài khoản có dấu hiệu tạo nội dung lừa đảo hoặc vi phạm pháp luật. Công ty cũng đang nghiên cứu công cụ dán nhãn AI cho video tạo từ nền tảng của hãng.
Trước đó, đã có nhiều trường hợp mất hàng nghìn USD vì AI giả giọng người thân, thậm chí sử dụng video deepfake để tăng độ tin cậy. Giới chuyên gia đánh giá, công cụ AI giả giọng nói và video đang tràn lan, nhưng các cơ quan quản lý vẫn loay hoay kiểm soát. Hầu hết nạn nhân đều khó xác định thủ phạm vì kẻ lừa đảo hoạt động khắp thế giới. Các công ty AI cũng chưa phải chịu trách nhiệm về việc công cụ bị kẻ khác lạm dụng.
Bảo Lâm (theo WSJ)