Nhảy đến nội dung
 

DeepSeek tuyên bố chỉ tốn 294.000 USD đào tạo mô hình AI

Theo bản cập nhật nghiên cứu của nhóm phát triển AI tại DeepSeek, công bố trên tạp chí Nature tuần này, mô hình lý luận R1 có chi phí đào tạo 294.000 USD và sử dụng 512 chip H800 của Nvidia. Phiên bản trước đó của nghiên cứu được xuất bản hồi tháng 1 và không chứa thông tin trên.

Cộng thêm 6 triệu USD mà DeepSeek chi để tạo mô hình ngôn ngữ lớn (LLM) làm cơ sở cho R1, tổng số tiền công ty bỏ ra vẫn ít hơn đáng kể so với các công ty đối thủ. Năm 2023, Sam Altman, CEO OpenAI, cho biết việc đào tạo mô hình nền tảng có chi phí "cao hơn nhiều" mức 100 triệu USD. Dù vậy, OpenAI không đưa ra con số cụ thể cho bất cứ mô hình nào của công ty.

Chip H800 được Nvidia thiết kế cho thị trường Trung Quốc sau khi Mỹ cấm công ty xuất khẩu chip AI H100 và A100 vào tháng 10/2022. Tuy nhiên, trong tài liệu bổ sung kèm theo nghiên cứu trên Nature, DeepSeek lần đầu thừa nhận sở hữu chip A100 và sử dụng chúng trong giai đoạn chuẩn bị phát triển.

"Về nghiên cứu DeepSeek R1, chúng tôi sử dụng các GPU A100 để chuẩn bị cho những thí nghiệm với một mô hình nhỏ hơn", nhóm nghiên cứu, trong đó có CEO DeepSeek Liang Wenfeng, nêu. Sau giai đoạn đầu này, R1 được huấn luyện tổng cộng 80 giờ trên cụm 512 chip H800.

R1 được thiết kế để thực hiện tốt nhiệm vụ lý luận như toán học và lập trình, là đối thủ cạnh tranh giá rẻ với công cụ do các công ty công nghệ Mỹ phát triển. R1 là mô hình "trọng số mở", cho phép bất cứ ai cũng có thể tải xuống. Đây cũng là mô hình phổ biến nhất thuộc loại này trên nền tảng cộng đồng AI Hugging Face đến nay với 10,9 triệu lượt tải.

DeepSeek cho biết dữ liệu đào tạo mô hình V3 của công ty dựa vào những trang web chứa "một lượng lớn câu trả lời do các mô hình OpenAI tạo ra, điều này có thể khiến mô hình nền tảng gián tiếp tiếp thu kiến thức từ những mô hình mạnh khác". Tuy nhiên, công ty khẳng định đây không phải hành động cố ý mà chỉ là tình cờ.

Theo Reuters, DeepSeek luôn ủng hộ phương pháp "chưng cất" vì giúp mô hình đạt hiệu suất tốt hơn trong khi chi phí đào tạo và vận hành rẻ hơn nhiều, cho phép các công nghệ AI được tiếp cận rộng rãi hơn. Thuật ngữ "chưng cất" đề cập đến kỹ thuật trong đó một hệ thống AI học hỏi từ hệ thống AI khác, nhờ đó mô hình mới tận dụng được lợi ích từ sự đầu tư về thời gian và sức mạnh tính toán nhằm xây dựng mô hình cũ mà không phải chịu chi phí tương ứng.

Thu Thảo (Theo Reuters, Nature)

 
 
 
CÔNG TY CỔ PHẦN XÂY DỰNG SẢN XUẤT VÀ THƯƠNG MẠI ĐẠI SÀN
logo

Giấp phép đăng ký kinh doanh số 0103884103 do Sở Kế Hoạch & Đầu Tư Hà Nội cấp lần đầu ngày 29/06/2009.

Trụ sở chính: Gian số L4-07 tầng 4, nơ-2 - Gold Season, 47 Nguyễn Tuân, Thanh Xuân, Hà Nội

Email: daisanjsc@gmail.com

TRỤ SỞ HÀ NỘI

Địa chỉ Gian số L4-07 tầng 4, nơ-2 - Gold Season, 47 Nguyễn Tuân, Thanh Xuân, Hà Nội

Điện thoại  Điện thoại: 1900 98 98 36

Fax  Fax: 045625169

CHI NHÁNH HỒ CHÍ MINH

Địa chỉ 57/1c, Khu phố 1, Phường An Phú Đông, Quận 12, Thành phố Hồ Chí Minh

Điện thoại  Email: info@daisan.vn