"Chúng tôi luôn muốn phát triển các tác nhân AI phổ quát có thể hữu ích trong cuộc sống hàng ngày. Đó là lý do hôm nay, chúng tôi sẽ chia sẻ tiến trình xây dựng tương lai của trợ lý AI: Dự án Astra", Demis Hassabis, CEO Google DeepMind nói tại sự kiện Google I/O, rạng sáng 15/5 (giờ Hà Nội).
Theo Hassabis, để thực sự hữu ích, AI phổ quát (Universal AI) cần hiểu và phản hồi với thế giới thực giống như con người. Chúng cũng cần có khả năng tiếp nhận và ghi nhớ thông tin từ những gì nhìn và nghe thấy, từ đó hiểu bối cảnh và thực hiện hành động.
"Nó cũng cần phải có tính chủ động, dễ dạy và mang tính cá nhân để người dùng có thể nói chuyện với nó một cách tự nhiên và không có độ trễ", Hassabis nói.
Trong video minh họa dài hai phút, Google cho thấy sản phẩm của mình có thể làm được những điều đó, thông qua một thiết bị có sẵn camera và micro, như smartphone hoặc kính thông minh, và sử dụng AI có khả năng xử lý nhiều thông tin đầu vào (Multimodal AI).
Ví dụ khi đưa camera vào một căn phòng và hỏi đâu là thiết bị đang phát ra âm thanh, AI trả lời chính xác đó là một một bộ loa đang đặt trên bàn, thậm chí có thể chia sẻ chi tiết về các bộ phận của loa khi người dùng hỏi. Hay khi đưa camera vào một màn hình với các dòng code, máy cũng có thể cho biết các dòng code này đang thực hiện chức năng gì.
Trợ lý AI của Google còn tạo ấn tượng ở khả năng tiếp nhận và ghi nhớ thông tin. Sau khi người dùng sử dụng camera đi quanh căn phòng rồi bất ngờ hỏi "bạn có nhớ là đã thấy cái kính của tôi ở đâu không", thiết bị trả lời "có" và chỉ chính xác vị trí "ở trên bàn, cạnh quả táo", dù camera chỉ lướt qua bối cảnh này trong thời gian rất ngắn trước đó. Câu trả lời của AI đã nhận được tràng pháo tay hưởng ứng tại tại khán phòng của Google I/O.
Theo đại diện Google, các hệ thống AI có thể hiểu thông tin đa phương thức hiện đã dần tiến bộ. Tuy nhiên, thách thức trong việc phát triển trợ lý này là khả năng hiểu bối cảnh và phản hồi trong thời gian ngắn nhất.
Hãng đã cải thiện thông số này bằng xây dựng trên mô hình Gemini mới, được thiết kế để xử lý thông tin nhanh hơn bằng cách mã hóa liên tục các khung hình video, kết hợp đầu vào video và giọng nói, thành dòng thời gian của sự kiện, đồng thời lưu thông tin này vào bộ nhớ đệm để tăng hiệu quả.
Trước đó, trong phần giới thiệu về hai mô hình mới là Gemini 1.5 Pro và 1.5 Flash, Hassabis cho biết các mô hình mới có khả năng xử lý một triệu "token" cửa sổ ngữ cảnh.
Google chưa công bố chi tiết thời gian phát hành trợ lý AI này, nhưng cho biết một số tính năng sẽ được đưa lên các sản phẩm Google, trong đó có ứng dụng Gemini trên điện thoại cuối năm nay.
Lưu Quý - Châu An