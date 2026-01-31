Phan Nguyễn Hoàng Long là đồng tác giả chính công bố nghiên cứu về "bài thi hóc búa nhất thế giới" cho AI trên tạp chí Nature.

Tờ Nature ngày 28/1 xuất bản bài báo với tiêu đề "A benchmark of expert-level academic questions to assess AI capabilities" (tạm dịch: Một bộ câu hỏi học thuật cấp chuyên gia để đánh giá khả năng của trí tuệ nhân tạo). Long là đồng tác giả chính và tham gia dẫn dắt dự án này.

Có bài xuất bản trên tạp chí danh tiếng hơn 150 năm tuổi với tỷ lệ chấp thuận khoảng 8% được coi là vinh dự trong sự nghiệp của bất kỳ nhà khoa học nào.

"Đây là cột mốc lớn sau 5 năm tôi theo đuổi nghiên cứu AI với mong muốn làm những điều có ích và có sức ảnh hưởng toàn cầu", Long chia sẻ.

Cựu sinh viên Đại học Case Western Reserve, Mỹ, đang là kỹ sư nghiên cứu về an toàn trí tuệ nhân tạo tại Center for AI Safety (CAIS), nơi Dan Hendrycks - cố vấn của Elon Musk làm giám đốc.

Phan Nguyễn Hoàng Long. Ảnh: Nhân vật cung cấp.

Bài báo trình bày kết quả của dự án Humanity’s Last Exam (HLE) - thước đo nhằm đánh giá kiến thức, khả năng suy luận ở trình độ nghiên cứu và chuyên môn của các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini, Grok,...

HLE không phải là những câu hỏi trắc nghiệm thông thường. Nó gồm 2.500 câu hỏi chuyên sâu thuộc 100 lĩnh vực như toán học, khoa học tự nhiên và nhân văn... Hơn 1.000 giáo sư, chuyên gia từ 500 đại học, tổ chức nghiên cứu hàng đầu thế giới như Stanford, Harvard, Princeton, MIT, Oxford... đóng góp vào bộ chuẩn này.

Dự án xuất phát từ ý tưởng của tỷ phú Elon Musk, được CAIS và Scale AI - startup về AI của tỷ phú tự thân trẻ thân thế giới Alexandr Wang, hợp tác thực hiện từ năm 2024. Wang là một trong những cố vấn của dự án này, cũng là người điều hành phòng thí nghiệm về siêu trí tuệ nhân tạo của Meta.

New York Times từng nhận định HLE khó đến mức "khi AI vượt qua, chúng ta phải coi chừng". Thực tế, nó được sử dụng như một trong những thước đo quan trọng nhất của các công ty như DeepMind, OpenAI, xAI khi ra mắt các mô hình AI. Hồi tháng 7/2025, HLE được xAI sử dụng để phát triển Grok 4. Elon Musk đã đánh giá bài thi này "cực kỳ khó" trong buổi livestream ra mắt.

Theo Hoàng Long, HLE tạo ra điểm tham chiếu chung cho các nhà hoạch định chính sách. Nhờ đó, họ có thêm căn cứ để thảo luận về hướng phát triển của AI, những rủi ro tiềm tàng và đưa ra chính sách quản lý phù hợp.

Nhà nghiên cứu trẻ cho biết sẽ tiếp tục theo đuổi lĩnh vực an toàn AI vì tin rằng đây là yếu tố quan trọng, quyết định ảnh hưởng của công nghệ đối với xã hội.

Nature là tạp chí khoa học đa ngành, xuất bản các nghiên cứu mang tính tiên phong kể từ năm 1869. Các bài đăng phải đáp ứng tiêu chí về độ mới, có ý nghĩa khoa học lớn và phương pháp luận vững chắc, đồng thời thu hút sự quan tâm của cộng đồng khoa học đa ngành.

