Hiến kế xây dựng AI có chủ quyền với mô hình ngôn ngữ lớn

Các doanh nghiệp công nghệ hàng đầu như VNG đã đưa ra những sáng kiến quan trọng, đồng thời công bố các sản phẩm công nghệ lõi, cho thấy những bước tiến cụ thể trong việc làm chủ công nghệ AI bản địa.
Tầm nhìn về một nền tảng AI có chủ quyền cho Việt Nam
Trong bối cảnh AI được xác định là lĩnh vực trọng điểm, có thể đóng góp tới 12% GDP cho Việt Nam vào năm 2030 (theo Google), việc xây dựng một nền tảng trí tuệ nhân tạo có chủ quyền không chỉ là mục tiêu công nghệ mà còn đóng vai trò chiến lược kinh tế - xã hội quan trọng.
Tại phiên thảo luận trong khuôn khổ sự kiện NVIDIA AI Day diễn ra ở TP.HCM ngày 23.9, ông Lê Hồng Minh, nhà sáng lập kiêm Chủ tịch VNG, đã chia sẻ góc nhìn về vấn đề này. Theo ông, "AI có chủ quyền" phải được thể hiện qua việc xây dựng được ứng dụng và mô hình kinh doanh AI có giá trị thực chất, giải quyết bài toán cụ thể của Việt Nam, đặc biệt trong bối cảnh nguồn vốn đầu tư trong nước còn hạn chế so với thế giới.
Ông nhấn mạnh Việt Nam còn thiếu đội ngũ chuyên gia nghiên cứu AI chuyên sâu và sự tích lũy về công nghệ lõi. "Để giải hai bài toán này, doanh nghiệp công nghệ Việt cần tập trung phát triển, hoàn thiện sản phẩm và cơ hội kinh doanh cụ thể. AI phải được tích hợp tự nhiên vào trải nghiệm, chứ người dùng không thể bị 'ép' dùng AI", ông Minh phân tích.
Quan điểm này nhận được sự đồng tình từ phía cơ quan quản lý. Ông Võ Xuân Hoài, Phó giám đốc Trung tâm Đổi mới sáng tạo Quốc gia (NIC) cho biết Chính phủ đang tập trung vào các ưu tiên hàng đầu như xây dựng bộ dữ liệu tiếng Việt chuẩn hóa, phát triển đội ngũ nhân tài với mục tiêu có hơn 50.000 kỹ sư AI trong những năm tới, và ban hành những chính sách hỗ trợ toàn diện để hình thành hệ sinh thái khởi nghiệp AI mạnh mẽ.
Hai hướng tiếp cận để làm chủ mô hình ngôn ngữ lớn tiếng Việt
Để hiện thực hóa tầm nhìn về AI có chủ quyền, việc làm chủ công nghệ lõi, đặc biệt mô hình ngôn ngữ lớn (LLM) cho tiếng Việt, là yếu tố then chốt. Tại sự kiện, các đơn vị thuộc VNG đã giới thiệu hai hướng tiếp cận chiến lược và bổ trợ cho nhau.
Đầu tiên là hướng tiếp cận mã nguồn mở và dễ tiếp cận. GreenNode, đơn vị chuyên về AI Cloud thuộc VNG, đã giới thiệu GreenMind-Medium-14B-R1 (GreenMind) - mô hình suy luận LLM tiếng Việt mã nguồn mở đầu tiên được tích hợp trên nền tảng NVIDIA NIM, bộ công cụ của NVIDIA giúp đơn giản hóa việc triển khai và tối ưu hóa các mô hình AI. Việc này đánh dấu bước tiến quan trọng, giúp các doanh nghiệp và startup trong nước có thể ứng dụng AI linh hoạt, tiết kiệm chi phí và phù hợp với nhu cầu thực tiễn mà không cần đầu tư quá lớn vào hạ tầng ban đầu.
Ông Võ Trọng Thư, Trưởng phòng AI Lab của GreenNode, cho biết: "Các mô hình AI thế hệ mới không chỉ dừng ở việc hỏi đáp máy móc, mà phải bắt đầu biết 'suy nghĩ', hiểu ngữ cảnh. Để làm điều đó, chúng ta cần xây dựng dữ liệu lập luận (reasoning) bằng tiếng Việt, huấn luyện trên kho tri thức của chính người Việt. Khi ấy, chúng ta mới tạo ra những mô hình AI thực sự dành riêng cho người Việt".
Tiếp theo là hướng tiếp cận chuyên sâu và huấn luyện từ đầu. Song song với việc thúc đẩy mã nguồn mở, Zalo AI (một đơn vị khác của VNG) đã chọn hướng đi chuyên sâu hơn: tự huấn luyện LLM "từ con số không" (from-scratch). Theo TS Châu Thành Đức, Trưởng bộ phận Nghiên cứu và Phát triển tại Zalo AI, việc này đòi hỏi nguồn lực lớn về dữ liệu chất lượng và khả năng triển khai ở quy mô lớn, nhưng lại cho phép làm chủ hoàn toàn công nghệ lõi, tối ưu sâu cho đặc thù tiếng Việt.
Hướng tiếp cận này đã mang lại những kết quả ấn tượng khi mô hình LLM tiếng Việt do Zalo AI phát triển đã đạt năng lực xử lý cao hơn 1,5 lần so với GPT-3.5 và đứng ở vị trí thứ hai, chỉ sau LLaMA-3-70B của Meta trên bảng xếp hạng VMLU (bộ tiêu chuẩn đánh giá năng lực ngôn ngữ tiếng Việt cho LLM) vào cuối năm 2024. Thành công đã đưa Việt Nam trở thành một trong số ít quốc gia Đông Nam Á sở hữu mô hình LLM nội địa hiệu năng cao. Một ứng dụng thực tế từ mô hình này là "Trợ lý Công dân số AI" vừa được Zalo ra mắt, giúp hơn 78 triệu người dùng tra cứu thông tin về thủ tục hành chính và quy định pháp lý một cách nhanh chóng, chính xác ngay trên nền tảng Zalo.