DeepSeek tuyên bố chỉ tốn 294.000 USD đào tạo mô hình AI

Theo bản cập nhật nghiên cứu của nhóm phát triển AI tại DeepSeek, công bố trên tạp chí Nature tuần này, mô hình lý luận R1 có chi phí đào tạo 294.000 USD và sử dụng 512 chip H800 của Nvidia. Phiên bản trước đó của nghiên cứu được xuất bản hồi tháng 1 và không chứa thông tin trên.

Cộng thêm 6 triệu USD mà DeepSeek chi để tạo mô hình ngôn ngữ lớn (LLM) làm cơ sở cho R1, tổng số tiền công ty bỏ ra vẫn ít hơn đáng kể so với các công ty đối thủ. Năm 2023, Sam Altman, CEO OpenAI, cho biết việc đào tạo mô hình nền tảng có chi phí "cao hơn nhiều" mức 100 triệu USD. Dù vậy, OpenAI không đưa ra con số cụ thể cho bất cứ mô hình nào của công ty.

Chip H800 được Nvidia thiết kế cho thị trường Trung Quốc sau khi Mỹ cấm công ty xuất khẩu chip AI H100 và A100 vào tháng 10/2022. Tuy nhiên, trong tài liệu bổ sung kèm theo nghiên cứu trên Nature, DeepSeek lần đầu thừa nhận sở hữu chip A100 và sử dụng chúng trong giai đoạn chuẩn bị phát triển.

"Về nghiên cứu DeepSeek R1, chúng tôi sử dụng các GPU A100 để chuẩn bị cho những thí nghiệm với một mô hình nhỏ hơn", nhóm nghiên cứu, trong đó có CEO DeepSeek Liang Wenfeng, nêu. Sau giai đoạn đầu này, R1 được huấn luyện tổng cộng 80 giờ trên cụm 512 chip H800.

R1 được thiết kế để thực hiện tốt nhiệm vụ lý luận như toán học và lập trình, là đối thủ cạnh tranh giá rẻ với công cụ do các công ty công nghệ Mỹ phát triển. R1 là mô hình "trọng số mở", cho phép bất cứ ai cũng có thể tải xuống. Đây cũng là mô hình phổ biến nhất thuộc loại này trên nền tảng cộng đồng AI Hugging Face đến nay với 10,9 triệu lượt tải.

DeepSeek cho biết dữ liệu đào tạo mô hình V3 của công ty dựa vào những trang web chứa "một lượng lớn câu trả lời do các mô hình OpenAI tạo ra, điều này có thể khiến mô hình nền tảng gián tiếp tiếp thu kiến thức từ những mô hình mạnh khác". Tuy nhiên, công ty khẳng định đây không phải hành động cố ý mà chỉ là tình cờ.

Theo Reuters, DeepSeek luôn ủng hộ phương pháp "chưng cất" vì giúp mô hình đạt hiệu suất tốt hơn trong khi chi phí đào tạo và vận hành rẻ hơn nhiều, cho phép các công nghệ AI được tiếp cận rộng rãi hơn. Thuật ngữ "chưng cất" đề cập đến kỹ thuật trong đó một hệ thống AI học hỏi từ hệ thống AI khác, nhờ đó mô hình mới tận dụng được lợi ích từ sự đầu tư về thời gian và sức mạnh tính toán nhằm xây dựng mô hình cũ mà không phải chịu chi phí tương ứng.

Thu Thảo (Theo Reuters, Nature)

Nguồn VnExpress: https://vnexpress.net/deepseek-tuyen-bo-chi-ton-294-000-usd-dao-tao-mo-hinh-ai-4941458.html

Trí tuệ nhân tạo - AI

Nvidia

Tin liên quan

Áp lực của nhân viên 'tầng giữa' trong chuỗi cung ứng AI

Mùa xuân 2024, chuyên viên viết tài liệu kỹ thuật Rachael Sawyer nhận được lời mời tuyển dụng trên LinkedIn cho vị tr

VnExpress 7 giờ trước

Ứng dụng AI Việt giúp phát hiện chủng loại gỗ trong một giây

Ứng dụng do Cục Lâm nghiệp và Kiểm lâm, Tổ chức Hợp tác Quốc tế Đức, Viện Khoa học Lâm Nghiệp Việt Nam, và Học viện C

VnExpress 2 ngày trước

Doanh nghiệp Việt dùng AI nhiều, nhưng ở mức cơ bản

Tại sự kiện AWS Cloud Day ngày 18/9, Amazon Web Services (AWS) công bố nghiên cứu cho thấy 18% các công ty Việt Nam đ

VnExpress 2 ngày trước

AI trở thành 'vũ khí mềm' trên không gian mạng

Tại hội thảo AI & Cybersecurity ngày 17/9 ở Hà Nội, Trung tướng Nguyễn Minh Chính, Phó chủ tịch thường trực Hiệp

VnExpress 3 ngày trước

Hội nghị về giải pháp hạ tầng số cho AI sắp diễn ra ở Hà Nội

Hội nghị xoay quanh chủ đề "Phát triển hạ tầng số sẵn sàng cho AI - Động lực tăng trưởng mới của Việt Nam".

VnExpress 4 ngày trước

Vibe Coding biến lập trình viên thành 'người dọn rác AI'

Là nhà phát triển web, Rover cùng con trai xây dựng công ty khởi nghiệp chuyên tạo phần mềm ứng dụng mô hình học máy

VnExpress 4 ngày trước

AI sẽ là trở thành hạ tầng trí tuệ của đất nước

Trí tuệ nhân tạo có thể thúc đẩy kinh tế Việt Nam, nhưng kéo theo những thách thức khó lường.

VnExpress 5 ngày trước

Lý do Hàng Châu trở thành trung tâm AI hàng đầu

Hơn hai thập kỷ trước, Jack Ma đã thành lập Alibaba từ một căn hộ nhỏ ở Hàng Châu, bắt đầu quá trình biến một vùng đấ

VnExpress 6 ngày trước

Nền tảng AI Việt hợp nhất các mô hình AI vào một ứng dụng

Trong buổi ra mắt nền tảng AI tích hợp AMIS OneAI sáng 12/9, ông Lê Hồng Quang, Tổng giám đốc Misa, cho biết đây là m

VnExpress 1 tuần trước

Mỹ - Trung rẽ hai hướng trong cuộc đua AI

Mỹ đang tốn hàng tỷ USD và hàng GW năng lượng để chạy đua với Trung Quốc trong lĩnh vực AI, hướng tới tạo ra trí tuệ

VnExpress 1 tuần trước

Sự kiện an ninh mạng CyberCon Asia 2025 bàn về 'AI đối đầu AI'

Diễn ra ngày 13-14/9 tại Đại học Duy Tân (Đà Nẵng), CyberCon Asia 2025 quy tụ 100 lãnh đạo, hơn 500 đại diện doanh ng

VnExpress 1 tuần trước

Tham vọng robot hình người của Elon Musk rơi vào thế khó

Cuối tuần trước, Milan Kovac, một trong những kiến trúc sư đứng sau dự án chế tạo robot hình người Optimus của Tesla,

VnExpress 1 tuần trước

VNPT đề xuất phát triển ba sản phẩm công nghệ chiến lược về AI

Tại lễ kỷ niệm 80 năm thành lập chiều 6/9, Tổng giám đốc VNPT Huỳnh Quang Liêm nhấn mạnh doanh nghiệp muốn tiếp nối t

VnExpress 1 tuần trước

VNPT đề xuất phát triển ba sản phẩm công nghệ chiến lược về AI

Tại lễ kỷ niệm 80 năm thành lập chiều 6/9, Tổng giám đốc VNPT Huỳnh Quang Liêm nhấn mạnh doanh nghiệp muốn tiếp nối t

VnExpress 1 tuần trước

OpenAI tạo nền tảng tuyển dụng AI, cạnh tranh LinkedIn

"Nếu bạn là doanh nghiệp đang tìm kiếm nhân viên am hiểu AI, hoặc cần hỗ trợ cho một nhiệm vụ cụ thể, tìm được đúng n

VnExpress 2 tuần trước

DeepSeek tuyên bố chỉ tốn 294.000 USD đào tạo mô hình AI

Tin liên quan

Tin nổi bật