'Thị trường ngầm' cho cơn khát dữ liệu đào tạo AI

Ảnh, video, bài viết đang trở thành món hàng mà bất kỳ công ty đào tạo AI nào cũng săn đón và chi hàng chục triệu USD để mua.

Vào thời kỳ đỉnh cao đầu những năm 2000, Photobucket là website lưu trữ hình ảnh hàng đầu thế giới. Nền tảng tự hào có 70 triệu người dùng, chiếm gần một nửa thị trường ảnh trực tuyến ở Mỹ.

Ngày nay, Photobucket chỉ còn hai triệu người dùng và tiếp tục đi xuống, theo Sameweb. Tuy nhiên, cơn sốt AI tạo sinh đang mang lại cho công ty sức sống mới. CEO Ted Leonard cho biết đang đàm phán với nhiều công ty công nghệ để cấp phép cho 13 tỷ ảnh và video của Photobucket, phục vụ mô hình ngôn ngữ lớn (LLM). Ông dự định bán giá từ 0,05 đến 1 USD mỗi ảnh và từ 1 USD mỗi video. Mức giá tùy thuộc bên mua và loại nội dung được tìm kiếm.

"Chúng tôi đã nói chuyện với các công ty. Họ thậm chí nói cần nhiều hơn thế nữa. Họ muốn mua hơn một tỷ video, nhiều hơn những gì nền tảng đang có", Leonard nói.

Photobucket từ chối tiết lộ danh tính bên mua do bí mật thương mại. Tuy nhiên, việc nắm giữ nội dung trị giá hàng tỷ USD của Photobucket đã giúp đưa ra cái nhìn thoáng qua về thị trường dữ liệu hoạt động âm thầm, không công khai nhưng nhộn nhịp trong cơn sốt công nghệ AI tạo sinh.

Logo các mạng xã hội trên màn hình máy tính. Ảnh: Reuters

Các công ty vận hành LLM như OpenAI, Meta, Google, Microsoft ban đầu sử dụng nguồn dữ liệu khổng lồ, miễn phí và công khai được thu thập từ Internet. Đây là cách làm mà họ cho là "vừa hợp pháp vừa có đạo đức". Tuy nhiên, khi đối mặt với các vụ kiện từ hàng loạt chủ sở hữu bản quyền, cũng như dịch vụ AI thu phí cũng đã được triển khai, họ cần lượng dữ liệu bản quyền lớn hơn nữa.

"Big Tech đang vội vàng tìm kiếm nội dung bản quyền, càng sớm càng tốt", luật sư Edward Klaris từ Klaris Law cho biết. Công ty hiện tư vấn cho một số Big Tech mua bản quyền nội dung và cấp phép lưu trữ ảnh, phim, sách để đào tạo AI với giá hàng chục triệu USD.

Theo hơn 30 người làm trong lĩnh vực giao dịch dữ liệu AI, gồm CEO và cựu CEO các công ty dữ liệu, luật sư và nhà tư vấn, thị trường này đang rất được săn đón dù chủ yếu hoạt động ngầm. Business Research Insights ước tính giá trị thị trường mua bán dữ liệu cho AI hiện ở mức 2,5 tỷ USD và sẽ tăng lên 30 tỷ USD trong vòng một thập kỷ.

Cơn sốt vàng

Trong bối cảnh đơn kiện vi phạm nội dung bản quyền gia tăng, Big Tech đang cố gắng gom dữ liệu bản quyền càng nhiều càng tốt và sẵn sàng đổ "tiền tấn" để có chúng. Họ mua trực tiếp qua các công ty, hoặc thông qua môi giới dữ liệu AI - lĩnh vực mới xuất hiện và đang phát triển.

Theo New York Times, nỗ lực tìm kiếm nguồn dữ liệu mới trong cuộc chạy đua AI nghiêm trọng đến mức các giám đốc của Meta "họp gần như hàng ngày vào tháng 3 và 4 năm ngoái". Trong các cuộc họp đó, một số người đưa ra ý tưởng mua lại nhà xuất bản Simon & Schuster. Số khác đề nghị trả 10 USD cho một cuốn sách.

Cũng trong những tháng đầu 2023, một loạt công ty như Meta, Google, Amazon và Apple đã đạt được thỏa thuận với nhà cung cấp hình ảnh Shutterstock để sử dụng hàng trăm triệu ảnh, video và tệp nhạc cho mục đích đào tạo. Jarrod Yahes, CEO Shutterstock, cho biết hợp đồng với mỗi công ty Big Tech dao động từ 25 triệu đến 50 triệu USD nhưng "đều mở rộng sau đó".

Một đối thủ của Shutterstock là Freepik nói cũng ký với hai công ty công nghệ lớn để cấp phép cho phần lớn kho 200 triệu hình ảnh của mình với giá từ 0,02 đến 0,04 USD mỗi ảnh. CEO Joaquin Cuenca Abela nói có 5 đơn vị khác đang liên hệ mua nội dung, nhưng từ chối đề cập cụ thể.

OpenAI, một trong những khách hàng đầu tiên của Shutterstock, đạt thỏa thuận với ít nhất bốn tổ chức tin tức, như AP và Axel Springer. Thomson Reuters cho biết Reuters cấp phép nội dung tin tức cho một số bên đào tạo AI nhưng không tiết lộ chi tiết.

Các công ty nhỏ hơn cũng tích cực thu thập nội dung bản quyền như bài viết trên mạng xã hội, podcast, video ngắn sau đó bán lại cho các công ty lớn. Chẳng hạn, Defined AI, startup ở Seattle, hiện cấp phép cho nhiều ông lớn như Google, Meta, Apple, Amazon và Microsoft.

Theo Daniela Braga, CEO Defined AI, giá của dữ liệu khác nhau tùy theo người mua và loại nội dung, nhưng các công ty thường sẵn sàng trả 1-2 USD cho mỗi hình ảnh, 2-4 USD cho mỗi video ngắn và 100-300 USD mỗi giờ cho phim. Giá cho văn bản là 0,001 USD mỗi từ. Braga khẳng định tất cả dữ liệu trên nền tảng "có nguồn gốc hợp pháp" và sẵn sàng đền bù cho khách hàng nếu không đúng.

Rủi ro

Theo giới chuyên gia, việc đưa những "tên tuổi Internet cũ" như Photobucket trở lại, sử dụng nội dung làm nhiên liệu cho đào tạo AI có thể gây ra một số rủi ro nghiêm trọng, đặc biệt về quyền riêng tư của người dùng.

"Có nghĩa là, những bức ảnh hoặc nội riêng tư của một người được đăng cách đây vài thập kỷ có thể xuất hiện trở lại trong kết quả đầu ra của AI mà không cần thông báo hoặc có sự đồng ý rõ ràng", một chuyên gia cho biết.

Braga của Defined AI cho biết công ty tránh mua nội dung từ các đơn vị mang tính "nền tảng" như Photobucket. Thay vào đó, công ty lấy nguồn ảnh trên mạng xã hội do KOL tạo ra - những người có yêu cầu rõ ràng hơn về quyền cấp phép.

"Tôi thấy lấy nội dung từ nền tảng cũ rất rủi ro", Braga nói. "Nếu có AI nào đó tạo ra thứ gì đó giống với hình ảnh của một người chưa bao giờ đồng ý chia sẻ, đó là một vấn đề".

Photobucket không phải là nền tảng cũ duy nhất bán nội dung cho công ty AI. Automattic, công ty mẹ của Tumblr, tháng trước cũng cho biết đang chia sẻ nội dung với "công ty AI được chọn lọc". Trong tháng 2, Reddit cũng đạt được thỏa thuận với Google về việc huấn luyện AI.

Dù vậy vào tháng 3, Reddit nói quyết định cấp phép dữ liệu cho bên thứ ba đào tạo AI khiến công ty trở thành mục tiêu điều tra của Ủy ban Thương mại Liên bang Mỹ. Mạng xã hội thừa nhận rằng hành vi này có thể vi phạm các quy định về quyền riêng tư và sở hữu trí tuệ đang có.

Bảo Lâm (theo Reuters)

Trở lại Khoa học công nghệTrở lại Khoa học công nghệ