Tuy nhiên, tôi nhận thấy nhiều người còn mơ hồ, chưa hiểu tại sao giới công nghệ toàn cầu lại chấn động đến vậy. Là người làm công nghệ, tôi muốn giải thích rõ hơn vì sao DeepSeek lại có sức ảnh hưởng lớn.
Đầu tiên, cần khẳng định DeepSeek không hẳn sao chép GPT-series model vì OpenAI từ lâu đã không còn công bố chi tiết kỹ thuật về các mô hình hàng đầu của họ. Còn về dữ liệu và kiểm duyệt là một vấn đề khác, họ đã đưa ra phương pháp huấn luyện và kiến trúc mô hình thì bạn hoàn toàn có thể sử dụng để huấn luyện trên tập dữ liệu và thiên kiến riêng, miễn là có đủ nguồn lực.
Đột phá của DeepSeek là đưa ra phương pháp huấn luyện mô hình AI mới dựa trên học tăng cường (reinforcement learning) một cách hiệu quả và chi phí tối ưu. Nhờ đó công ty này tung ra mô hình DeepSeek-R1 với khả năng suy luận vượt trội, ngang ngửa các mô hình hàng đầu của OpenAI. Điều đáng chú ý là chi phí huấn luyện mô hình cơ sở của DeepSeek-R1 (DeepSeek-V3) chỉ bằng 1/20 đến 1/50 so với chi phí của các mô hình tương đương mà OpenAI đã bỏ ra. Đây là một khoảng cách về chi phí quá lớn để có thể bỏ qua.
Nhìn sâu hơn vào công nghệ, DeepSeek đã đạt được bước đột phá quan trọng trong việc tối ưu hóa quá trình huấn luyện AI. Thay vì sử dụng các chip đắt tiền nhất của Nvidia, họ chỉ dùng dòng H800 có giá thành thấp hơn và chi chưa đến 6 triệu USD cho việc huấn luyện này. Con số thực sự gây sốc so với hàng tỷ USD mà các công ty Mỹ đang đổ vào phát triển AI.
Đây không phải đột phá đơn lẻ, mà là thành quả của cộng đồng mã nguồn mở có thể nói đã được khởi xướng bởi các tổ chức hàng đầu của phương Tây như Meta, Mistral hay OpenScience. Nhìn ở phương diện đó, DeepSeek chính là một thành công lớn cho cộng đồng AI mở và thách thức sự thống trị của OpenAI. Mọi nghi ngờ về điều này sẽ nhanh chóng được sáng tỏ do các viện, phòng thí nghiệm và tổ chức lớn của phương Tây đang thực hiện lại quá trình huấn luyện của DeepSeek. Nếu thành công, một kỷ nguyên mới với AI hiệu quả hơn, chi phí thấp hơn đang dần được mở ra.
Tuy DeepSeek gây chấn động là vậy, có một số điểm cần làm rõ để tránh sự hiểu lầm từ thị trường:
6 triệu USD là con số cuối cùng để huấn luyện mô hình sau khi đã tìm ra phương pháp tối ưu, chứ không phải toàn bộ số tiền mà DeepSeek đã bỏ ra. Do nghiên cứu là cả quá trình thử và sai, và còn rất nhiều chi phí khác, nên để tìm ra phương pháp cuối cùng này, con số mà DeepSeek bỏ ra sẽ lớn hơn đáng kể.
Những khoản đầu tư vào AI gần đây liệu có quá lớn so với tiềm năng? Thực tế DeepSeek đã chỉ ra một phương pháp huấn luyện hiệu quả, tuy nhiên mục tiêu chính khi đầu tư vào hạ tầng cho AI là để vận hành và triển khai (inference). Để có đủ sức mạnh mang AI và đời sống và sẵn sàng phục vụ lợi ích của số đông thì cần một hạ tầng khổng lồ hơn rất nhiều so với hiện tại cho dù là tập trung hay phi tập trung. Cho nên dư địa đầu tư vào hạ tầng cho AI vẫn còn rất lớn, phản ứng của thị trường với cổ phiếu của NVIDIA lần này có vẻ khá cực đoan.
Vậy, cục diện bàn cờ AI - OpenAI và Silicon Valley với những tay chơi lớn hiện nay như thế nào?
Giới tinh hoa công nghệ của Mỹ đang đặt cược vào OpenAI, đây sẽ là một canh bạc lớn để giữ sự thống trị của Mỹ trong cuộc chạy đua mới. Tôi từng ủng hộ Sam Altman khi có bất đồng với HĐQT OpenAI hồi năm 2023, vì tôi có cùng quan điểm rằng sẽ cần thêm rất nhiều tiền để đạt được đột phá trong nghiên cứu và phát triển AI. Tuy nhiên, những sự kiện sau đó như các nhà đồng sáng lập lần lượt rời đi, tin đồn giải thể Superalignment Team và gần đây là từ bỏ sứ mệnh non-profit từ ngày đầu thành lập, khiến tôi đang băn khoăn liệu Altman có phải chỉ đang cố huy động nhiều tiền nhất có thể để củng cố vị trí trong tương lai của mình. Vì thực tế, từ chỗ là người tiên phong trong sứ mệnh AI "open", bây giờ OpenAI đã không còn "open" nữa.
Cộng đồng mã nguồn mở với những người tiên phong như Meta, Mistral, OpenScience đã tạo ra một sân chơi nơi mà AI dễ dàng tiếp cận hơn, và DeepSeek vừa là kẻ được hưởng lợi vừa là một thành công của cộng đồng opensource, như lời giáo sư Yann LeCun. Tuy mỗi người chơi đều có toan tính riêng khi tham gia đóng góp vào quá trình này, ít nhất họ cũng giúp AI được phát triển rộng rãi và dễ kiểm soát hơn.
Trước khi DeepSeek nổi lên như một công cụ có hiệu quả ngang ngửa OpenAI o1 và rẻ tiền hơn, nhiều công ty khởi nghiệp và các phòng thí nghiệm hàng đầu Trung Quốc đã cho ra rất nhiều mô hình khác nổi trội trong cộng đồng. Có thể kể đến Qwen series của Alibaba, và gần đây nhất là Kimi của MoonshotAI cũng với cùng một công thức huấn luyện rẻ hơn nhưng có hiệu năng gần như tương đương hoặc hơn các mô hình như GPT-4o, Claude-3.5-Sonet. Nhiều người sẽ nói, đây là những phát kiến sinh sau đẻ muộn, dựa trên kết quả nghiên cứu từ trước đó của phương Tây. Điều này đúng, nhưng sự thật thì cách mà thế giới khoa học - công nghệ hoạt động chính là sự kế thừa và phát triển. Nói các nhà nghiên cứu Trung Quốc chỉ giỏi sao chép và ăn cắp là thiếu thỏa đáng. Giới nghiên cứu Trung Quốc (tính cả những người gốc Hoa làm việc ở nước ngoài) là một trong những cộng đồng đóng góp rất nhiều cho sự phát triển của AI gần đây. Một trong những nghiên cứu ảnh hưởng lớn nhất cho sự phát triển của học sâu hiện đại có tên là Residual Connection của tác giả người Trung Quốc tên là Kaiming He, khi anh này đang làm việc tại Microsoft Research Asia có trụ sở tại Bắc Kinh. Dù chỉ mới xuất bản năm 2016, nghiên cứu này đã có gần 260 nghìn trích dẫn theo thống kê của Google Scholar và trở thành một trong những nghiên cứu được trích dẫn nhiều nhất mọi thời đại.
Trong khi đó châu Âu đang chậm lại do các tranh cãi về đầu tư và hành lang pháp lý liên quan đến AI. Tuy nhiên, châu Âu vẫn là một trong những tay chơi quan trọng và đóng góp nhiều nhất cho open research với những công ty như Mistral hay HuggingFace.
Cuối cùng, DeepSeek không chỉ là bước tiến về mặt công nghệ mà còn là điểm rẽ trong cách thế giới phát triển AI. Nó chứng minh rằng những đột phá có thể đến từ bất kỳ đâu, không chỉ từ những công ty có nguồn lực dồi dào. Điều này có thể dẫn đến một kỷ nguyên mới của đổi mới AI, nơi hiệu quả và sáng tạo được đánh giá cao hơn quy mô đầu tư thuần túy.
Tuy nhiên, tôi nghĩ thị trường có thể đang phản ứng thái quá với tin tức này. Dù DeepSeek đã chứng minh khả năng tối ưu chi phí huấn luyện, nhu cầu về cơ sở hạ tầng AI vẫn còn rất lớn, đặc biệt là trong giai đoạn triển khai và vận hành thực tế.
Huỳnh Văn Duy