Với tiêu đề Ảo tưởng về Tư duy, nghiên cứu do Apple công bố cuối tuần qua được đánh giá là "gáo nước lạnh" cho những người lạc quan về AI "lý luận" và siêu trí tuệ AGI.
Báo cáo cho biết các mô hình lý luận lớn (LRM) như OpenAI o1, o3, DeepSeek R1, Claude 3.7 Sonnet Thinking hay Google Gemini Flash Thinking đối mặt với "sự sụp đổ hoàn toàn về độ chính xác" khi gặp những vấn đề cực kỳ phức tạp. Trước đó, các mô hình này được ca ngợi có khả năng "suy luận" (reasoning), một bước tiến trên con đường phát triển AGI - những hệ thống siêu trí tuệ nhân tạo với khả năng tư duy và thông minh như con người.

Minh họa AI có thể "suy luận". Ảnh: Meta AI
Để chứng minh luận điểm LRM vẫn chưa đủ thông minh như mô tả, Apple bỏ qua cách đánh giá truyền thống, như các bài kiểm tra toán tiêu chuẩn cho AI - vốn có thể bị "nhiễm" dữ liệu đã học được trên Internet. Thay vào đó, nhóm nghiên cứu tự thiết kế một môi trường giải đố có kiểm soát, với các trò chơi logic như Checkers Jumping, River Crossing, Tháp Hà Nội và Blocks World, sau đó đưa vào các mô hình kể trên.
Với cách này, nhóm có thể chỉnh độ khó cho AI nhưng vẫn bảo toàn cấu trúc logic cho hệ thống, giúp đánh giá tốt hơn kết quả cuối cùng. Nhóm cũng có thể "nhìn" vào quá trình "suy nghĩ" của AI để đưa ra kết luận - giống cách giáo viên xem học sinh thực hiện các bước giải toán.
Kết quả bất ngờ xảy ra, khi AI hoạt động không giống như nhóm dự tính ban đầu. Với bài toán "độ phức tạp thấp", các mô hình thông thường đưa ra kết quả chính xác, trong khi "siêu AI" với khả năng lý luận lại gặp khó khăn. Điều này giống như một học sinh bình thường có thể giải bài toán đơn giản, nhưng thiên tài toán học lại áp dụng nhiều công thức khác nhau khiến bài giải trở nên phức tạp.
Với thách thức "độ phức tạp trung bình", LRM bắt đầu phát huy khả năng, khi có thể tạo ra chuỗi suy luận dài để giải quyết vấn đề. Trong khi đó, AI thông thường bị hạn chế, thậm chí không thể xử lý.
Nhưng khi đến thách thức "độ phức tạp cao", cả hai loại AI đều bộc lộ điểm yếu. Trong khi AI thông thường đã dừng bước ở bài toán trung bình, LRM bắt đầu khiến mọi thứ trở nên phức tạp.
"Kết quả cho thấy tất cả mô hình lý luận đều cho ra một điểm yếu chung: độ chính xác giảm dần khi độ phức tạp của vấn đề tăng lên, cho đến khi sụp đổ hoàn toàn, tức độ chính xác bằng không", theo kết quả nghiên cứu.
Chẳng hạn, với Tháp Hà Nội, Claude 3.7 Sonnet Thinking và DeepSeek R1 bắt đầu thất bại khi thêm đĩa thứ năm. Sự nhất quán cũng là vấn đề, khi Claude 3.7 Sonnet Thinking có thể thực hiện chính xác hơn 100 nước đi trong bài toán Tháp Hà Nội vốn phức tạp, nhưng lại thất bại sau bốn nước trong trò chơi River Crossing đơn giản hơn.
Ngay cả khi áp dụng nhiều sức mạnh tính toán hơn cho LRM, chúng vẫn thất bại ở câu đố phức tạp. Nhóm nghiên cứu còn phát hiện các mô hình lý luận này có hành động "phản trực giác", tức huy động năng lực tính toán khi độ khó tăng, nhưng lại bỏ qua các bước giải ở một số điểm nhất định nếu vấn đề trở nên quá khó.
"Khi sự tiếp cận đạt ngưỡng quan trọng, các mô hình bắt đầu giảm nỗ lực lý luận khi độ khó của vấn đề ngày càng tăng", báo cáo viết. "Vì vậy, khi vấn đề trở nên rất khó, chúng sẽ sử dụng ít token hơn, nghĩa là 'suy nghĩ' ít hơn".
Dựa trên nhiều thử nghiệm, nhóm nghiên cứu của Apple chỉ ra rằng không có bằng chứng nào cho thấy các mô hình này thực hiện các bước suy luận logic. Nghĩa là, chúng chỉ hoạt động như những hệ thống suy đoán từ dựa trên dữ liệu đầu vào có được khi huấn luyện.
"Các chuỗi suy nghĩ dài dòng trông có vẻ thông minh, nhưng không hề diễn ra quá trình suy luận. Điều này đặt ra câu hỏi rằng liệu chúng ta có đang phấn khích hay ảo tưởng về khả năng hiện tại của LRM", nhóm cho biết.
Sau công bố của Apple, Gary Marcus, một học giả và chuyên gia AI người Mỹ, mô tả kết quả nghiên cứu "khá tàn khốc". "Những gì nghiên cứu chỉ ra cho thấy, về cơ bản, LLM và cả LRM chưa thể là con đường tới AGI", Marcus viết trên Substack. "Bất kỳ ai nghĩ LLM là con đường trực tiếp dẫn đến AGI, có thể họ đang tự lừa dối mình".
Trong khi đó, theo Andrew Rogoyski của Đại học Surrey, nghiên cứu của Apple báo hiệu ngành công nghiệp trí tuệ nhân tạo "vẫn mò mẫm" về AGI. "Phát hiện cho thấy các mô hình AI lớn chỉ có thể giải quyết vấn đề dễ đến trung bình, chưa xử lý được vấn đề phức tạp. Điều đó cho thấy chúng có thể đã đi đến 'ngõ cụt' trong cách tiếp cận hiện tại", Rogoyski nói với Guardian.
Bảo Lâm (theo Apple, Guardian, Mashable)
- Lý do AI 'phản kháng' khi bị dọa tắt máy
- Chi phí đánh giá các mô hình AI lý luận ngày càng tăng cao
- OpenAI ra o1-Pro - mô hình AI lý luận đắt nhất