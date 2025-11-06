Khi Tesla, Boston Dynamics, Nvidia... có nhu cầu huấn luyện chuyển động cho robot hình người, các công ty dán nhãn dữ liệu nhanh chóng vào cuộc.

Tại một thị trấn công nghiệp ở miền Nam Ấn Độ, Naveen Kumar, 28 tuổi, đứng tại bàn làm việc và bắt đầu công việc của mình: gấp khăn tay hàng trăm lần, càng chính xác càng tốt. Anh không phải nhân viên khách sạn, mà đang làm cho công ty khởi nghiệp Objectways chuyên tạo dữ liệu vật lý để đào tạo AI.

Mỗi ngày, Kumar gắn camera GoPro lên trán, thực hiện danh sách dài chuyển động tay để ghi lại chính xác về cách con người gấp khăn. Hôm đó, anh dùng tay phải nhặt từng chiếc khăn từ giỏ bên phải, giũ thẳng khăn bằng cả hai tay, rồi gấp gọn gàng ba lần, đặt từng chiếc vào góc trái bàn làm việc. Nếu mất hơn một phút hoặc bỏ sót bất kỳ bước nào, anh phải bắt đầu lại.

Nhân viên huấn luyện cho một robot hình người tại Trung Quốc. Ảnh: Movella

Objectways đã gửi hơn 200 video gấp khăn cho khách hàng. Công ty chuyên dán nhãn dữ liệu này có đội ngũ hơn 2.000 nhân viên, một nửa trong số đó dán nhãn dữ liệu cảm biến xe tự hành và robot, số còn lại phục vụ các mô hình AI. Hầu hết đạt trình độ kỹ sư, rất ít người có kinh nghiệm gấp khăn. Vì vậy, họ phải thay phiên nhau làm công việc chân tay.

Những hành động khi ghi video cũng được thực hiện cẩn thận nhằm nắm bắt mọi cử chỉ của con người, chẳng hạn đưa tay, nắm ngón tay, vuốt vải... Cuối cùng, họ chú thích video đã quay, đánh dấu từng phần và gắn thẻ nội dung.

"Đôi khi, chúng tôi phải xóa gần 150 hoặc 200 video vì lỗi ngớ ngẩn trong cách gấp hoặc đặt vật phẩm", Kumar nói với LATimes.

Cách đó gần nửa vòng Trái Đất, bên trong khu kỹ thuật tại trụ sở Tesla ở Austin, Texas (Mỹ), hàng chục người mặc trang phục với 5 camera gắn trên mũ bảo hiểm và một chiếc ba lô nặng, làm việc mỗi ngày 8 tiếng để dạy robot hình người Optimus cách di chuyển như con người.

"Nhiệm vụ đòi hỏi thể lực, đôi khi vô lý, nhưng cũng rất tỉ mỉ", một trong 5 nhân viên và cựu nhân viên Tesla kể với Business Insider về quá trình huấn luyện cho robot Optimus. "Nếu cử động không đủ 'tính người', bạn sẽ bị phê bình hiệu suất làm việc".

Công việc được đánh giá nhàm chán, một số thậm chí mắc vấn đề về sức khỏe trong quá trình huấn luyện. Dù vậy, đây hiện là cách tốt nhất nhằm giúp robot AI, đặc biệt là robot hình người, thực hiện thao tác như người thật trước khi bước ra đời thật.

"Nhiều công ty đang xây dựng mô hình AI phù hợp với thế giới thực cho robot", Ulrik Stig Hansen, nhà đồng sáng lập Encord - nền tảng quản lý dữ liệu tại San Francisco, nhận xét. "Ngành robot đang hồi sinh mạnh mẽ".

Encord đang phối hợp với Objectways thu thập dữ liệu trình diễn của con người cho robot, cũng như hợp tác cùng các công ty robot như Physical Intelligence, Dyna Robotics.

Tesla và Boston Dynamics nằm trong số những công ty dẫn đầu tại Mỹ trong cuộc đua phát triển phần cứng thế hệ robot tiếp theo, trong khi Nvidia, Google và OpenAI tiên phong về phần mềm. Một số startup ít tên tuổi cũng đang cố gắng cung cấp phần cứng, phần mềm và dữ liệu nhằm thúc đẩy tham vọng robot hình người đa nhiệm. Nvidia dự đoán thị trường này có thể đạt 38 tỷ USD trong thập kỷ tới.

Chatbot như ChatGPT đã thành thạo sử dụng ngôn ngữ, tạo hình ảnh, sáng tác âm nhạc, lập trình và các kỹ năng khác, nhờ những mô hình ngôn ngữ lớn (LLM) đứng sau tổng hợp dữ liệu từ Internet, cũng như được huấn luyện bởi các "đội quân nhãn dán". Trong khi đó, dữ liệu về cách thế giới vật lý vận hành được đánh giá khó thu thập và áp dụng vào robot hơn.

Theo Ali Ansari, nhà sáng lập Micro1 tại San Francisco, cách phổ biến nhất là tập trung mô phỏng bằng điều khiển từ xa. Con người mặc "áo giáp" với bộ điều khiển để huấn luyện robot làm những việc như nhấc cốc, pha trà, rán trứng. Việc điều khiển có thể thực hiện ngay trong căn phòng, hoặc từ xa ở một nước khác thông qua kết nối Internet.

Bên cạnh mô phỏng, các công ty cũng tìm ra nhiều cách thức khác để thu thập dữ liệu huấn luyện, chẳng hạn trả tiền cho người dùng kính thông minh ghi lại cuộc sống hàng ngày. Mohammad Musa, người sáng lập Deepen AI, công ty dán nhãn tại California, cho biết các đơn vị chuyên về huấn luyện dữ liệu cho robot AI (mà ông gọi là "trang trại vũ khí") đang nở rộ khi nhu cầu gia tăng.

Những nơi chủ yếu đặt doanh nghiệp dạng này có Brazil, Argentina, Ấn Độ và Mỹ. Nổi tiếng nhất có thể kể đến Scale AI, khi thu thập 100.000 giờ cảnh quay đào tạo robot. Figure AI, nhà sản xuất robot có trụ sở tại San Jose đã hợp tác với "gã khổng lồ" bất động sản Brookfield ghi lại hình ảnh bên trong 100.000 ngôi nhà, chủ yếu dạy robot hình người cách di chuyển trong không gian.

Nhưng việc thu thập không phải lúc nào cũng dễ dàng. Dev Mandal, 20 tuổi, mở một công ty ở Bengaluru (Ấn Độ) với hy vọng tận dụng nhu cầu dữ liệu vật lý để đào tạo AI và nguồn lao động giá rẻ ở đây. Sau một thời gian quảng bá, Mandal cũng nhận được đơn hàng đầu tiên với nhiệm vụ đào tạo cánh tay robot nấu ăn, cùng một robot khác cắm và rút dây cáp trong trung tâm dữ liệu.

Nhưng Mandal sớm từ bỏ vì yêu cầu khách hàng quá cao, cần dữ liệu chuyển động vật lý thu thập theo cách rất cụ thể. "Mọi thứ, kể cả màu sắc của chiếc bàn, đều phải do họ chỉ định", Mandal nói. "Họ nói màu sắc phải thật chính xác".

Dù vậy, ngành công nghiệp này vẫn tiến triển mạnh mẽ trong bối cảnh robot hình người nở rộ. "Đôi khi cánh tay robot làm rơi quần áo, không gấp gọn hay làm đổ đống đồ đang thực hiện. Nhưng trong vòng 5-10 năm nữa, chúng sẽ làm tất cả công việc này một cách nhuần nhuyễn. Khi đó, không còn việc gì cho chúng tôi nữa", Kavin, 27 tuổi, nhân viên Objectways, dự đoán.

Bảo Lâm tổng hợp