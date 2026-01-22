Tròn một năm bùng nổ với mô hình huấn luyện chi phí thấp R1 và V3, DeepSeek được giới công nghệ chờ đợi sẽ gây sốt trở lại với các công bố mới.

Ngày 20/1/2025, công ty khởi nghiệp Trung Quốc DeepSeek ra mắt R1 "đào tạo trên các chip cũ của Nvidia, mã nguồn mở 100%, rẻ hơn 96,4% so với OpenAI o1 trong khi vẫn mang lại hiệu suất tương tự", đồng thời miễn phí mô hình V3. Động thái này lập tức gây bão toàn cầu, khiến vốn hóa của Nvidia sụt gần 600 tỷ USD, còn Meta phải lập "phòng chiến tranh" để giải mã mô hình đang thay đổi cuộc chơi của Trung Quốc.

Người dân tìm hiểu về công nghệ của DeepSeek tại một hội chợ AI ở Hàng Châu, tỉnh Chiết Giang tháng 5/2025. Ảnh: Tân Hoa Xã

DeepSeek mang đến gì năm 2025?

Sau giai đoạn bùng nổ ban đầu, DeepSeek thực hiện một số cải tiến cho mô hình. Vào tháng 3/2025, công ty ra DeepSeek-V3-0324 với dung lượng 641 GB, 685 tỷ tham số, được giới nghiên cứu AI đánh giá là "bước nhảy vọt lớn" khi đó, theo VentureBeat.

Đến tháng 5/2025, công ty tiếp tục phát hành R1-0528 với khả năng lý luận chặt chẽ hơn, cũng như kiểm duyệt nội dung tốt hơn. Ngày 21/8/2025, DeepSeek cải tiến với V3.1 với "kiến trúc lai" gồm chế độ "suy nghĩ" và "không suy nghĩ", được đánh giá vượt trội phiên bản V3 và R1 ban đầu theo một số tiêu chuẩn như SWE-Bench và Terminal-Bench.

Một tháng sau, startup này có hai cập nhật cho V3, gồm V3.1-Terminus và V3.2-Exp, tập trung vào cơ chế Sparse Attention giúp phân tích đưa ra quyết định dựa trên dữ liệu huấn luyện và thông tin mới. Mô hình cũng đồng thời "giảm nửa chi phí suy luận" trong các phép toán ngữ cảnh dài.

Xuyên suốt các phiên bản, giới chuyên gia nhận định DeepSeek đã đi vào guồng ổn định thay vì đột phá như ban đầu. Tuy nhiên, những gì nó mang lại trong lĩnh vực AI vẫn được đánh giá cao.

Tác động mạnh đến lĩnh vực AI

Ngay khi xuất hiện, DeepSeek được đánh giá là "khoảnh khắc Sputnik" ở lĩnh vực trí tuệ nhân tạo, chỉ vụ phóng vệ tinh đầu tiên của Liên Xô ngày 4/10/1957, gây chấn động thế giới và châm ngòi cho cuộc chạy đua không gian. Thành công của Liên Xô từng làm dấy lên nỗi lo rằng Mỹ và phần còn lại của thế giới đang tụt hậu, kéo theo các khoản đầu tư lớn vào khoa học, công nghệ và giáo dục.

Business Today thậm chí đánh giá DeepSeek là "bước ngoặt trong cuộc chiến AI toàn cầu" khi chứng minh không cần nhiều chi phí cũng có thể tạo ra LLM mạnh mẽ. Với số tiền chỉ bằng một phần nhỏ so với các mô hình AI siêu đắt của các gã khổng lồ Mỹ, DeepSeek cho hiệu quả tương đương.

Dù chưa có nhiều đột phá sau khoảnh khắc đầu năm 2025, hiện giới chuyên gia vẫn đánh giá rất cao DeepSeek. Theo bài viết của hai chuyên gia AI và học máy Adina Yakefu và Irene Solaiman trên HuggingFace - cộng đồng AI mã nguồn mở lớn nhất thế giới, sự xuất hiện của các mô hình như R1 "hạ thấp rào cản với AI tiên tiến, cung cấp mô hình rõ ràng để noi theo". Lần đầu tiên, một mô hình mã nguồn mở từ Trung Quốc lọt vào bảng xếp hạng chính thống toàn cầu, đồng thời liên tục được sử dụng làm điểm tham chiếu khi các mô hình mới được phát hành.

DeepSeek cũng đem lại cho sự phát triển AI của Trung Quốc điều quý giá về mặt thời gian, cho thấy ngay cả với nguồn lực hạn chế, tiến bộ nhanh chóng vẫn có thể đạt được thông qua mã nguồn mở. Cách tiếp cận này phù hợp với chiến lược AI+ năm 2017 của Trung Quốc: kết hợp AI và ngành công nghiệp càng sớm càng tốt, đồng thời tiếp tục xây dựng năng lực tính toán trong dài hạn.

"Một năm sau khi R1 được phát hành, điều chúng ta thấy không chỉ là một tập hợp mô hình mới, mà còn là hệ sinh thái AI mã nguồn mở phát triển tự nhiên của Trung Quốc", hai tác giả bình luận.

Thực tế, sau "phát súng" DeepSeek, các mô hình AI tương tự tại Trung Quốc liên tục ra đời, phát triển mạnh cả về nghiên cứu, kỹ thuật lẫn ứng dụng thị trường. Alibaba có Qwen, ByteDance có Moonshot AI, Zhipu AI có GLM/ChatGLM hay Baidu có Ernie thế hệ mới. Theo Wired, thị trường AI Trung Quốc cũng sôi động với hàng nghìn công cụ và LLM được đăng ký nội địa từ các tập đoàn, startup và viện nghiên cứu.

"DeepSeek mang lại sự tự tin cho rất nhiều người, điều mà cộng đồng AI Trung Quốc trước đó còn thiếu", Wu Chenglin, CEO DeepWisdom, nhận xét với Taipei Times.

Theo nhà phân tích Chelsey Tam tại công ty tư vấn đầu tư Morningstar, bước đột phá của công ty có trụ sở tại Hàng Châu trong đào tạo hệ thống AI tiên tiến bằng chip chất lượng thấp và ngân sách eo hẹp, bất chấp các biện pháp kiểm soát xuất khẩu mạnh mẽ của Mỹ, đã thể hiện khả năng của Trung Quốc trong việc "vượt khó".

"Cách tiếp cận mã nguồn mở của DeepSeek, cung cấp mô hình AI chi phí thấp hoặc miễn phí cho mục đích phi thương mại cho thấy công ty đang tự hào khi có rất nhiều người sử dụng mã nguồn của mình. Có cảm giác họ đang cố gắng dân chủ hóa AI cho toàn thế giới, giúp nhiều doanh nghiệp toàn cầu dùng AI Trung Quốc", ông Tam cho biết.

Nhu cầu sử dụng DeepSeek năm qua rất lớn. Theo thống kê của OpenRouter - nền tảng giúp đơn giản hóa việc tương tác AI - từ tháng 11/2024 đến 11/2025, số lượng token tiêu thụ của mô hình DeepSeek trên "cổng" này vượt quá 14.000 tỷ, dẫn đầu toàn cầu và vượt qua lượng sử dụng của bốn mô hình tiếp theo từ Alibaba của Trung Quốc, Mistral AI của châu Âu, Meta Platforms và OpenAI của Mỹ.

"Giữa lúc cộng đồng đầu tư toàn cầu băn khoăn về thị trường Trung Quốc do bị hạn chế tiếp cận công nghệ tiên tiến, DeepSeek là minh chứng cho thấy các công ty nước này vẫn có khả năng đổi mới bất chấp giới hạn", Lorraine Tan, Giám đốc nghiên cứu của Morningstar, viết trên blog.

"Một năm sau bước đột phá của DeepSeek, AI Trung Quốc đang bám sát công nghệ Mỹ. Bất chấp hạn chế về phần cứng, Trung Quốc vẫn giữ một trong những vị trí hàng đầu trong phát triển trí tuệ nhân tạo", Leah Fahy, nhà kinh tế học tại Capital Economics, nói với FT. "Trung Quốc sẽ thách thức Mỹ để trở thành quốc gia dẫn đầu toàn cầu về trí tuệ nhân tạo".

Jordan Nanos, nhà nghiên cứu của công ty tư vấn Semianalysis chuyên về chất bán dẫn, đánh giá DeepSeek có tác động lớn hơn đến AI thế giới, thách thức mô hình "vườn khép kín" của Thung lũng Silicon, buộc các "ông lớn" như OpenAI, Meta, xAI phải thay đổi quan điểm, điều chỉnh mô hình của mình theo hướng giúp người dùng dễ tiếp cận hơn.

DeepSeek có gì trong năm 2026?

DeepSeek chưa hé lộ kế hoạch ra mắt AI mới. Tuy nhiên, The Information dẫn nguồn tin cho biết mô hình chủ lực tiếp theo của DeepSeek là V4 "đã tạo đột phá trong việc xử lý những bài toán lập trình cực dài". Những bài kiểm tra nội bộ cho thấy mô hình "vượt trội" so với đối thủ từ Anthropic và OpenAI về khả năng lập trình.

Trong khi đó, trang WaveSpeed cho biết DeepSeek dự kiến công bố V4 khoảng giữa tháng 2, ngay trước Tết Nguyên đán, tương tự mô hình R1 năm ngoái. V4 được cho là cải tiến lớn về mặt kiến trúc, mang lại hiệu năng cao. Trong đó, DeepSeek mHC giúp định hình lại cách thông tin truyền tải qua mạng kiến trúc mô hình học sâu transformer. Cách tiếp cận này cho phép lan truyền dữ liệu hiệu quả, tận dụng tốt hơn dung lượng mô hình, đặc biệt đối với tác vụ lập trình phức tạp đòi hỏi duy trì ngữ cảnh nhất quán trên các cơ sở mã nguồn (codebase) lớn.

Một công nghệ khác đã được DeepSeek công bố ngày 13/1 là Engram, chứa cơ chế bộ nhớ có điều kiện, cho phép mô hình chọn lọc, giữ lại và truy xuất thông tin dựa trên ngữ cảnh của nhiệm vụ. Chức năng này có ý nghĩa lớn đối với ứng dụng lập trình, vì AI sẽ hiểu rõ hơn cấu trúc dự án, quy ước đặt tên và các mẫu lập trình trên toàn bộ kho lưu trữ.

Cải tiến quan trọng tiếp theo là DeepSeek Sparse Attention (DSA). Dù đã có trên V3, cơ chế này tiếp tục được nâng cấp, cho phép cửa sổ ngữ cảnh vượt quá một triệu token, trong khi giảm chi phí tính toán khoảng 50%, bằng cách tập trung tài nguyên vào những phần quan trọng nhất của ngữ cảnh, thay vì xử lý tất cả token như nhau.

V4 cũng có thể trang bị cơ chế thiết kế đặc biệt giúp "hiểu rõ" dữ liệu ở cấp độ kho lưu trữ, quản lý nhập/xuất; theo dõi định nghĩa kiểu dữ liệu trên module; duy trì tính nhất quán API; xác định mã chết và mã phụ thuộc không sử dụng. Ngoài ra, mô hình còn có khả năng chẩn đoán và sửa lỗi trải rộng trên nhiều tệp. Thay vì yêu cầu nhà phát triển phải tự mình khoanh vùng vấn đề, V4 có thể phân tích dấu vết ngăn xếp, theo dõi đường dẫn thực thi và đề xuất bản vá lỗi ảnh hưởng đến toàn bộ ngữ cảnh hệ thống.

Trong khi đó, thông tin về mô hình R2 chưa được đề cập.

DeepSeek chưa đưa ra bình luận.

"Nếu DeepSeek tung ra mô hình V4 hoặc R2 vào giai đoạn Tết Nguyên đán, đây sẽ vẫn là sự kiện chấn động", Zhang Ruiwang, kiến trúc sư hệ thống thông tin tại một công ty công nghệ ở Bắc Kinh, nói với SCMP. "DeepSeek sẽ chứng minh sự đổi mới trong cơ sở hạ tầng AI thúc đẩy hiệu quả và nâng cao hiệu suất mô hình. Tất nhiên, điều quan trọng hơn công ty cần làm là đưa trí tuệ nhân tạo đến tay mọi người".

Bảo Lâm tổng hợp