Nhảy đến nội dung
 

6 tháng huấn luyện mô hình ngôn ngữ lớn của Zalo AI

Từ năm 2023, Zalo đã huấn luyện và ra mắt mô hình LLM tập trung vào tiếng Việt, được nghiên cứu và phát triển hoàn toàn bởi đội ngũ kỹ sư người Việt. Các mô hình AI hiện nay có hai kỹ thuật huấn luyện. Đầu tiên là tinh chỉnh (fine-tuned model) - tối ưu các LLM đã được huấn luyện trước đó để tạo ra LLM mới phục vụ mục đích chuyên biệt. Kỹ thuật thứ hai là huấn luyện từ đầu (from-scratch model) - triển khai tất cả quy trình từ khởi tạo tham số, quyết định kiến trúc mô hình tới thuật toán huấn luyện trên tập dữ liệu nhất định.

Trong đó, việc tinh chỉnh có ưu điểm dễ triển khai, tiết kiệm tài nguyên và có thể cho hiệu quả tốt hơn. Đặc biệt, trong bối cảnh thiết bị huấn luyện và dữ liệu là thách thức tại Việt Nam, kỹ thuật tinh chỉnh được xem là một giải pháp cho doanh nghiệp.

Tuy nhiên Zalo lại lựa chọn kỹ thuật huấn luyện từ đầu. Theo công bố của đơn vị, với kỹ thuật huấn luyện này, toàn bộ quá trình huấn luyện và mô hình đều do người Việt kiểm soát, giúp Việt Nam có tên ở khu vực Đông Nam Á là quốc gia có LLM nội địa.

Tại thời điểm ra mắt vào năm 2023, mô hình ngôn ngữ lớn với 7 tỷ tham số tập trung vào tiếng Việt của Zalo đã đạt 150% năng lực so với GPT3.5 của OpenAI trên Bộ tiêu chuẩn đánh giá năng lực LLM tiếng Việt VMLU. Thời gian huấn luyện chỉ mất 6 tháng, rút ngắn rất nhiều so với dự kiến ban đầu là 18 tháng. Đội ngũ Zalo cho biết quá trình huấn luyện nhanh chóng này gây bất ngờ cho chính cả những người tham gia phát triển.

Năm 2024, mô hình với 13 tỷ tham số của Zalo vượt qua các tên tuổi lớn như GPT-4 (OpenAI), gemma-2-9b-it (Google), microsoft/Phi-3-small-128k-instruct (Microsoft), chỉ xếp sau Llama-3-70B (Meta) trên bảng xếp hạng năng lực tiếng Việt LLM của VMLU.

Theo đại diện đơn vị, kết quả cho thấy trình độ huấn luyện để phát triển một mô hình AI của riêng Việt Nam, nhất là trong bối cảnh phát triển ban đầu gặp nhiều khó khăn.

Vượt muôn thách thức

Theo Zalo, có ba vấn đề cốt lõi khi huấn luyện LLM là thiết bị huấn luyện, dữ liệu và trình độ kỹ thuật. "Việt Nam gặp trở ngại ở cả ba", đại diện đơn vị nói.

Trong khi các công ty lớn trên thế giới đã sở hữu hàng nghìn GPU hiệu năng cao mới nhất từ Nvidia, các kỹ sư Việt vẫn chưa được trang bị đầy đủ hạ tầng máy chủ cần thiết. Cùng lúc đó, tiếng Việt cũng được xếp vào nhóm có tài nguyên dữ liệu nghèo nàn hơn hàng chục lần so với tiếng Anh hay tiếng Trung. Nguồn lực con người và kinh nghiệm huấn luyện LLM của Việt Nam cũng còn nhiều hạn chế khi so sánh với các quốc gia phát triển.

Đội ngũ Zalo nghiên cứu và thực nghiệm trên các GPU dân dụng nhỏ để tranh thủ trang bị kiến thức và năng lực huấn luyện LLM, sẵn sàng ngay khi có hạ tầng tính toán lớn. Các chip huấn luyện về AI khan hiếm nên dù đã đặt mua 8 máy chủ DGX H100 của Nvidia, doanh nghiệp cũng không thể sở hữu cùng lúc các thiết bị mà phải chờ từng đợt bàn giao từ nhà sản xuất. Do vậy, việc tối ưu cho hạ tầng tính toán chưa hoàn thiện để tranh thủ thời gian huấn luyện cũng là một bài toán mà đội ngũ Zalo phải giải quyết.

Đồng thời, dữ liệu huấn luyện chất lượng cũng được đầu tư phát triển để bù đắp sự thiếu hụt về nguồn dữ liệu tiếng Việt.

Tiến sĩ Nguyễn Trường Sơn - Giám đốc Khoa học tại Zalo AI cho biết xuất phát điểm gặp nhiều khó khăn so với các công ty lớn trên thế giới nhưng Zalo vẫn quyết định nhập cuộc chơi từ sớm với mục tiêu phát triển mô hình AI của riêng Việt Nam. Đơn vị tham vấn kinh nghiệm từ các nhà nghiên cứu, kỹ sư tại nhiều viện nghiên cứu hàng đầu trên thế giới để có chiến lược phát triển phù hợp. "Những kết quả này là động lực để các kỹ sư Zalo tiếp tục tối ưu mô hình lớn hơn về lượng và tốt hơn về chất, tạo ra nhiều sản phẩm AI đạt chuẩn quốc tế cho người Việt", ông Sơn nói.

Nhờ sự thích ứng linh hoạt trong giai đoạn đầu phát triển, đơn vị từng bước đạt được những dấu mốc nổi bật. Hiện mô hình AI của Zalo được đánh giá thành công trên khía cạnh nghiên cứu huấn luyện, đồng thời đang được đưa vào ứng dụng, thúc đẩy việc tiếp cận và khai thác giá trị từ công nghệ mới tiên tiến cho người Việt.

Đầu năm 2025, đơn vị ra mắt Trợ lý hỏi đáp tổng hợp Kiki Info đang được vận hành dưới dạng một OA - Official Account (Tài khoản chính thức) trên nền tảng nhắn tin Zalo. Trợ lý hỗ trợ hỏi đáp các chủ đề khác nhau trong cuộc sống, sáng tạo nội dung và giải trí. Theo thống kê của đơn vị, trợ lý Kiki Info đã có tới 1 triệu lượt người dùng truy cập vào tài khoản OA trên Zalo chỉ trong chưa đầy 2 tháng.

Một ứng dụng khác của mô hình LLM của Zalo là thiệp AI cũng chạm mốc 15 triệu thiệp được khởi tạo và gửi đi chỉ trong 2 tháng. Đây là ứng dụng được đông đảo người dùng quan tâm để gửi những lời chúc tới người thân, bạn bè trong những dịp lễ quan trọng.

Hiện các ứng dụng từ mô hình ngôn ngữ lớn vẫn tiếp tục được Zalo mở rộng phát triển, hướng tới mang lại nhiều giá trị hữu ích cho người dùng.

Hoài Phương

 
 
 
logo
CÔNG TY CỔ PHẦN XÂY DỰNG SẢN XUẤT VÀ THƯƠNG MẠI ĐẠI SÀN

GPĐKKD: 0103884103 do sở KH & ĐT TP Hà Nội cấp lần đầu ngày 29/06/2009.

Địa chỉ: Gian số L4-07 tầng 4, nơ-2 - Gold Season,  47 Nguyễn Tuân, Thanh Xuân, Hà Nội

MIỀN BẮC

Địa chỉ Showroom: D11-47 KĐT Geleximco Lê Trọng Tấn, Hà Đông, Hà Nội

Điện thoại  Điện thoại: 1900 98 98 36

MIỀN NAM

Địa chỉ VPGD: 57/1c, Khu phố 1, Phường An Phú Đông, Quận 12, Thành phố Hồ Chí Minh

Điện thoại  Email: info@daisan.vn