Gemini ra mắt tối 6/12, là mô hình AI tiên tiến và tổng quát nhất của Google từ trước đến nay, cạnh tranh với GPT-4 của OpenAI.
Khác với các mô hình ngôn ngữ lớn phổ biến thời gian qua, Gemini được xây dựng theo hướng đa phương thức, tức có thể khái quát, vận hành và kết hợp trên nhiều loại thông tin khác nhau bao gồm văn bản, code, âm thanh, hình ảnh và video.
Để đáp ứng nhu cầu sử dụng linh hoạt, từ các trung tâm dữ liệu cho tới thiết bị di động, Google cho biết Gemini 1.0 này sẽ được cung cấp dưới ba kích cỡ khác nhau, gồm: Gemini Ultra, Gemini Pro và Gemini Nano. Trong số này, Gemini Ultra là mô hình kích thước lớn nhất và mạnh mẽ nhất.
Theo kết quả thử nghiệm được Google công bố, Gemini Ultra đạt điểm 90% trong bài kiểm tra khả năng hiểu ngôn ngữ đa nhiệm lớn (MMLU - Massive Multitask Language Understanding). Mô hình này sử dụng tổ hợp 57 môn học như toán, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra cả kiến thức thế giới và khả năng giải quyết vấn đề, đồng thời có thể "sử dụng khả năng của mình để nghĩ kỹ hơn trước khi trả lời những câu hỏi khó".
Với kết quả này, Gemini là AI đầu tiên vượt qua con người ở cấp độ chuyên gia, vốn có điểm 89,8% trong bài kiểm tra tương tự. Kết quả của GPT-4 là 87%, LLAMA-2 đạt 68% và Claude 2 của Anthropic đạt 78,5%.
Ngoài ra, phiên bản mạnh nhất này của Gemini cũng vượt 30 trong số 32 tiêu chuẩn trong nghiên cứu và phát triển mô hình ngôn ngữ lớn, đạt điểm 59,4% về khả năng MMMU (hiểu biết lớn về đa phương thức trên đa ngành), bao gồm các tác vụ đa phương thức trải rộng trên các lĩnh vực khác nhau đòi hỏi suy luận có chủ ý.
Demis Hassabis, CEO Google DeepMind, đại diện Đội ngũ Gemini, cho biết công ty mong muốn xây dựng thế hệ mô hình AI mới lấy cảm hứng từ phương thức nhận biết và tương tác với thế giới của con người. Nhờ đó, AI sẽ không chỉ dừng lại như một phần mềm thông minh, mà có thể trở nên hữu ích và trực quan hơn, tương tự như một cộng sự cho người dùng.
"Hôm nay, chúng tôi tiến thêm một bước gần hơn đến viễn cảnh này bằng việc giới thiệu Gemini, mô hình AI tiên tiến và tổng quát nhất từng được Google phát triển", Hassabis nói.
Ngoài hiệu suất mạnh mẽ, Google cho biết Gemini 1.0 được đào tạo để nhận diện văn bản, hình ảnh, âm thanh cùng nhiều loại hình khác ngay cùng một thời điểm, giúp nó hiểu rõ hơn hơn thông tin có sắc thái và trả lời các câu hỏi liên quan đến những chủ đề phức tạp. Mô hình này cũng có thể giải thích, và viết code bằng những ngôn ngữ lập trình phổ biến hiện nay như Python, Java, C++ và Golang.
Theo Google, những đặc tính này giúp Gemini có thể đọc hiểu, trích xuất thông tin từ hàng trăm nghìn tài liệu, từ đó mở ra khả năng tạo đột phá mới trong nhiều lĩnh vực, từ khoa học đến tài chính trong thời gian ngắn.
Trong buổi ra mắt, Google cho biết Gemini bản Ultra là phiên bản dành cho các tác vụ phức tạp nhất và đang trong quá trình hoàn tất thử nghiệm về độ an toàn trước khi tung ra chính thức. Gemini Nano là bản dành cho các tác vụ thực hiện trên thiết bị di động, sẽ được trang bị trên Pixel 8 Pro. Khi đó, điện thoại sẽ có thêm một số khả năng như tóm tắt nội dung ghi âm, trả lời thông minh trên bàn phím Gboard. Hai phiên bản Gemini này sẽ ra thị trường vào năm sau.
Trong khi đó, bản Pro hiện đã sử dụng trong chatbot Bard. Người dùng có thể trải nghiệm các thay đổi thông qua một số yêu cầu về về đọc hiểu, tóm tắt, lý luận, lập trình và lập kế hoạch.
Đây cũng là bản nâng cấp lớn nhất đối với Bard kể từ khi ra mắt. Tuy nhiên, Bard sử dụng Gemini Pro hiện mới hỗ trợ tiếng Anh, có thể sử dụng ở 180 quốc gia và vùng lãnh thổ. Google cho biết sẽ mở rộng các ngôn ngữ cho Bard trong thời gian tới. Năm sau, Bard sẽ được nâng cấp và sử dụng phiên bản Gemini Ultra mạnh nhất.
Lưu Quý