Nhảy đến nội dung
 

Xây dựng bộ dữ liệu AI tiếng Việt cho cộng đồng tự do sử dụng

Tại hội thảo trong khuôn khổ Ngày hội Đổi mới sáng tạo Quốc gia 2025, hôm 2/10 ở Hòa Lạc (Hà Nội), đại diện dự án ViGen cho biết đã tạo Vi-Primer 1.0 - bộ dữ liệu mở tiền huấn luyện (pre-training) và là bộ dữ liệu tiếng Việt lớn nhất tính đến nay.

Ông Vũ Xuân Sơn, Giám đốc công nghệ dự án, cho biết họ đã thu thập từ kho dữ liệu thô 150 tỷ token, đồng thời tổng hợp từ nguồn mở hoặc sẵn có trên mạng. Thông qua quy trình xử lý, phân loại và tinh lọc, nhóm tạo ra một bộ dữ liệu chất lượng cao chứa 50 tỷ token, sẵn sàng cho việc huấn luyện mô hình AI.

"Bộ dữ liệu được phát hành theo giấy phép ODC-By 1.0, cho phép cộng đồng tự do sử dụng, chia sẻ và phát triển cho mọi mục đích, kể cả thương mại, với điều kiện có ghi nhận nguồn", ông Sơn nói.

ViGen là dự án xây dựng bộ dữ liệu tiếng Việt mã nguồn mở do Trung tâm Đổi mới sáng tạo quốc gia (NIC) kết hợp phát triển cùng nhiều tổ chức, trong đó có AI for Vietnam, Meta, lần đầu công bố vào tháng 3. Bộ dữ liệu nhằm khắc phục nhược điểm của các mô hình ngôn ngữ lớn quốc tế, vốn chứa phần lớn là tiếng Anh, trong khi tiếng Việt chưa đến 1%. Từ đó, các nhà phát triển có thể sử dụng để đào tạo và phát triển các ứng dụng AI.

Việc có một bộ dữ liệu tiếng Việt tốt cộng với tính "mở" giúp các dự án xây dựng công cụ AI tiếng Việt chính xác, hoạt động tốt dành riêng cho người Việt. Ông Sơn lấy ví dụ với công cụ AI nước ngoài như ChatGPT, khi hỏi Việt Nam có bao nhiêu tỉnh thành, chúng sẽ trả lời theo thông tin cũ, thay vì dữ liệu cập nhật sau sáp nhập.

Tại hội thảo, ViGen cũng giới thiệu 5 khung đánh giá, nhằm đo lường năng lực của các mô hình AI tiếng Việt. Các khung được xây dựng trên 4.020 mẫu đánh giá, kiểm tra AI trên nhiều phương diện như kiến thức chuyên sâu, khả năng lập trình, tư duy logic, sự an toàn, mức độ am hiểu văn hóa và các sắc thái ngôn ngữ đặc trưng của người Việt.

Ngoài ra, họ cũng dự kiến ra phiên bản ViGen thử nghiệm cho người dùng, tổ chức có thể trực tiếp đóng góp dữ liệu, sử dụng tài nguyên để huấn luyện mô hình, cũng như kiểm tra và đánh giá chất lượng AI.

"Nền tảng tích hợp cơ chế thi đua khen thưởng để theo dõi và vinh danh những người đóng góp hàng đầu, qua đó thúc đẩy việc xây dựng kho dữ liệu Việt vì người Việt cho người Việt một cách trực quan, ý nghĩa và hứng khởi", đại diện dự án cho biết.

"Thông qua việc mở rộng khả năng tiếp cận bộ dữ liệu tiếng Việt chất lượng cao cho toàn cộng đồng, dự án đang giải quyết thực trạng tiếng Việt lâu nay ít hiện diện trong các hệ thống AI", ông Trần Việt Hùng, nhà sáng lập AI for Vietnam, nói. "Nền tảng sẽ tạo điều kiện cho các nhà nghiên cứu, nhà phát triển và đơn vị đổi mới sáng tạo trên khắp Việt Nam hợp tác, đóng góp, xây dựng giải pháp AI 'Made in Vietnam' nhưng có khả năng phục vụ thị trường toàn cầu".

Theo Phó giám đốc NIC Võ Xuân Hoài, AI được xác định là một trong những lĩnh vực trọng tâm mà Việt Nam đang đẩy mạnh, không chỉ phát triển mà còn thúc đẩy ứng dụng trong mọi lĩnh vực. Trong quá trình này, dữ liệu là một trong những trụ cột quan trọng, cùng với hạ tầng, chính sách và con người.

"Việt Nam cần một bộ dữ liệu tiếng Việt tiêu chuẩn và nguồn mở. Dữ liệu cần mở để tất cả, từ doanh nghiệp, startup đến tổ chức, cá nhân trong và ngoài nước đều có thể sử dụng", ông Hoài nói. "Đây chính là cơ sở để hình thành một môi trường mà AI không bị độc quyền".

Tại sự kiện, ông Philip Chua, Giám đốc Chính sách công và sản phẩm, Khu vực châu Á - Thái Bình Dương của Meta, đánh giá việc ra mắt phiên bản thử nghiệm của nền tảng ViGen là cột mốc quan trọng của dự án. "AI mã nguồn mở có thể mở rộng khả năng tiếp cận công nghệ tiên tiến, giúp nhà phát triển, nhà nghiên cứu và doanh nghiệp Việt Nam xây dựng giải pháp AI thực sự am hiểu bối cảnh địa phương và phục vụ cộng đồng", ông Chua cho biết.

Lưu Quý

 
 
 
CÔNG TY CỔ PHẦN XÂY DỰNG SẢN XUẤT VÀ THƯƠNG MẠI ĐẠI SÀN
logo

Giấp phép đăng ký kinh doanh số 0103884103 do Sở Kế Hoạch & Đầu Tư Hà Nội cấp lần đầu ngày 29/06/2009.

Trụ sở chính: Gian số L4-07 tầng 4, nơ-2 - Gold Season, 47 Nguyễn Tuân, Thanh Xuân, Hà Nội

Email: daisanjsc@gmail.com

TRỤ SỞ HÀ NỘI

Địa chỉ Gian số L4-07 tầng 4, nơ-2 - Gold Season, 47 Nguyễn Tuân, Thanh Xuân, Hà Nội

Điện thoại  Điện thoại: 1900 98 98 36

Fax  Fax: 045625169

CHI NHÁNH HỒ CHÍ MINH

Địa chỉ 57/1c, Khu phố 1, Phường An Phú Đông, Quận 12, Thành phố Hồ Chí Minh

Điện thoại  Email: info@daisan.vn