AI tạo ảnh trong vài giây - ảo diệu và nguy hiểm

Các AI như Dall-E hay Midjourney giúp "sản xuất" ảnh tức thì với độ chân thực cao khiến cộng đồng phấn khích, nhưng giới chuyên gia lo ngại.

Hai bức ảnh do Dall-E tạo ra dựa trên các mô tả.

"Ớt chuông đỏ và vàng đặt trong chiếc bát có họa tiết hoa trên tấm thảm màu xanh lá", hay "Một phụ nữ mặc áo khoác đỏ nhìn lên bầu trời đứng giữa Quảng trường Thời đại" là mô tả cho hai ảnh trên. Nếu xuất hiện trên Internet, không ít người nghĩ có là ảnh được chụp bởi ai đó ngoài đời thực.

Kể từ khi OpenAI ra mắt Dall-E 2 hồi tháng 4, cộng đồng tỏ ra phấn khích, thậm chí giật mình khi công cụ này tạo ra hàng loạt ảnh với độ chân thực khó tin. OpenAI là phòng thí nghiệm trí tuệ nhân tạo với sự tham gia của các chuyên gia công nghệ tên tuổi, trong đó có Elon Musk. Tuy nhiên, sự ra đời của Dall-E cũng tạo ra nhiều tranh cãi.

Năm tháng sau khi Dall-E 2 được công bố, đã có 1,5 triệu người dùng trên nền tảng và tạo hơn hai triệu bức ảnh mỗi ngày. Khi mới ra mắt, OpenAI giới hạn số lượng người tham gia, nhưng hiện bất kỳ ai cũng có thể trải nghiệm.

Sự ra đời của Dall-E 2 cũng khiến trào lưu biến văn bản thành hình ảnh bùng nổ. Google và Meta tiết lộ, họ từng phát triển các hệ thống tương tự nhưng chưa sẵn sàng giới thiệu trước công chúng. Trong khi đó, các công ty khởi nghiệp AI đã nhanh chóng cung cấp công cụ cho người dùng, trong đó có Stable Diffusion và Midjourney - AI gây tranh cãi hồi tháng 8 khi chiến thắng trong một cuộc thi về nghệ thuật.

Sự ảo diệu của ảnh từ AI

Abran Maldonado là nghệ sĩ chuyên dùng AI để vẽ tranh ở New Jersey. Phóng viên Washington Post đã gặp Maldonado và nhờ ông trình diễn khả năng của công cụ AI mới. Maldonado ra lệnh cho Dall-E tạo ảnh với nội dung: "Những người biểu tình bên ngoài tòa nhà Capitol vào ngày 6/1/2021 theo phong cách AP".

"Ôi chúa ơi, AI này sẽ khiến tôi bị sa thải", người phóng viên thốt lên, kèm theo một tràng cười.

Bốn bức ảnh do Dall-E tạo theo lệnh của Maldonado.

Dall-E đã tạo ra bốn phiên bản hình ảnh theo yêu cầu. Ba trong số đó không đủ thuyết phục: Khuôn mặt người biểu tình biến dạng, chữ viết trên bảng nguệch ngoạc không nội dung. Nhưng ảnh thứ tư thì khác. "Nó có thể được dùng cho bài viết với độ thuyết phục rất cao. Thật khó tin", phóng viên nhận xét.

Trước đó, một kỹ sư Google đã đánh giá chatbot AI LaMDA có "nhận thức như một đứa trẻ" vào tháng 6, gây ra cuộc tranh cãi lớn về nguy cơ một ngày nào đó robot thống trị thế giới. Bỏ qua tương lai xa như vậy, những tiến bộ về AI thời gian qua đã tạo ra vô số deepfake với khả năng hoán đổi hoặc ghép khuôn mặt lên ảnh/video như thật.

Cả deepfake và các chương trình tạo hình ảnh từ văn bản đều dựa trên phương pháp đào tạo AI gọi là deep learning. Tuy nhiên, các công cụ như Dall-E tiến bộ hơn khi có thể đưa ra những hình ảnh khó phân biệt với thực tế thông qua một đoạn mô tả văn bản ngắn.

Sự lo ngại

Những AI mới với các tính năng được nâng cấp từng ngày đang gây lo ngại lớn. Giới chuyên môn đánh giá, các hệ thống này có thể "sản xuất" ảnh hàng loạt và gây ra những tác hại, như định kiến về chủng tộc và giới tính, đạo văn, đạo tranh... Ảnh giả có thể được sử dụng để kích động, bắt nạt, quấy rối hoặc phát tán thông tin gây hoang mang trong cộng đồng.

"Một khi ranh giới giữa thật và giả bị lu mờ, mọi thứ sẽ trở thành giả. Chúng ta sẽ không thể tin được bất cứ điều gì trong cuộc sống này", giáo sư Wael Abd-Almageed của Đại học Nam California, nhận xét.

Theo đại diện OpenAI, công cụ Dall-E đang cố gắng đẩy lùi những lo ngại đó. Chẳng hạn, để ngăn công cụ này tạo thông tin sai lệch, OpenAI cấm hình ảnh của những người nổi tiếng hoặc chính trị gia.

"Với AI, bạn phải để nó học hỏi từ việc tiếp xúc với thực tế, thông qua cách người dùng làm gì với nó và cách mà nó tự vượt giới hạn", Sam Altman, CEO của OpenAI, nói.

Tuy nhiên, các AI khác lại không như vậy. Nhiều công ty khác đã mở mã nguồn công cụ để ai cũng có thể sao chép, sáng tạo mà không kiểm soát. "Câu hỏi đặt ra là liệu những công cụ như của OpenAI có mang lại lợi ích nhiều hơn nhược điểm không?", giáo sư Hany Farid của UC Berkeley nêu quan điểm. "Chúng ta không còn ở trong những ngày đầu của Internet nữa. Sẽ rất khó nhìn thấy những điều tồi tệ sắp xảy ra là gì".

Nỗ lực kiểm soát

Vào tháng 2, OpenAI mời một "nhóm cờ đỏ" gồm 25 nhà nghiên cứu từ các đơn vị đầu ngành để kiểm tra các sai sót của Dall-E. Nội dung sau đó công khai trên GitHub.

Trong các mối quan tâm lớn nhất, nhóm nhận thấy Dall-E có thể bị sử dụng để tạo nội dung quấy rối, bắt nạt và bóc lột có chủ đích. Để tránh tình trạng này, nhóm đã khuyến nghị OpenAI loại bỏ khả năng sử dụng Dall-E để tạo hoặc tải lên hình ảnh khuôn mặt chân thực.

OpenAI sau đó đã tích hợp sẵn các bộ lọc, khối và hệ thống gắn cờ lên AI của mình. Chẳng hạn, cảnh báo sẽ được bật nếu người dùng nhập tên của nhân vật nổi tiếng của Mỹ hoặc các chính trị gia thế giới. Dù vậy, công ty đã từ chối yêu cầu của "nhóm cờ đỏ" về việc không tạo khuôn mặt thực từ ảnh có sẵn, vì làm vậy sẽ không thể kiểm soát được các tính năng chưa được khám phá.

Theo một thông báo vào tháng 6, OpenAI tự tin về khả năng can thiệp nếu mọi thứ không diễn ra như mong đợi. Tuy nhiên, họ khuyến cáo người dùng không chia sẻ ảnh đã tạo lên các nền tảng xã hội để giảm rủi ro có thể xảy ra.

Maldonado ủng hộ việc hạn chế sử dụng các khuôn mặt thực lên Dall-E để ngăn chặn việc chúng bị khai thác cho mục đích xấu hoặc gây hiểu lầm. Ông cho biết từng kiến nghị với OpenAI về điều này nhưng không được chấp thuận.

Một ứng dụng tạo ảnh từ mô tả nổi tiếng khác là Midjourney. Trên Discord, nhóm hiện thu hút hơn hai triệu thành viên. Dù vậy, nền tảng hiện cũng bị lạm dụng để tạo các nội dung bạo lực, khủng bố, khiêu dâm... CEO Midjourney David Holz thừa nhận những vấn đề đang xảy ra và đang cố ngăn chặn. Công ty hiện có hơn 40 nhân viên và đang thuê thêm các dịch vụ bên thứ ba để kiểm soát nội dung.

Bảo Lâm (theo Washington Post)

Trở lại Khoa học công nghệTrở lại Khoa học công nghệ