Bộ tiêu chuẩn 'Make in Vietnam' đánh giá suy luận, tương tác của LLM

Zalo AI và Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST) giới thiệu phiên bản mới của VMLU, thúc đẩy cộng đồng AI Việt hoàn thiện các mô hình LLM bậc cao.

Được giới thiệu lần đầu tiên vào năm 2023, VMLU (Vietnamese Multitask Language Understanding) đã trở thành bộ tiêu chuẩn “Make in Vietnam” tiên phong, tạo động lực cho nhiều nhóm nghiên cứu trong nước cải tiến chất lượng của mô hình ngôn ngữ lớn (LLM) tiếng Việt.

Theo thống kê, trong năm 2024, VMLU đã công bố 45 LLM trên bảng xếp hạng, tiếp nhận yêu cầu đánh giá của hơn 155 tổ chức & cá nhân, tổng kết 691 lượt tải bộ tiêu chuẩn đánh giá và 3.729 lượt đánh giá LLM từ nền tảng. Bộ tiêu chuẩn được nhiều tổ chức trong và ngoài nước sử dụng như VinBigData, VNPT AI, Viettel Solutions, trường ĐH Bách Khoa - ĐHQG TP.HCM, UONLP x Ontocord - trường ĐH Oregon (Mỹ), DAMO Academy - Alibaba Group, SDSRV teams - Samsung…

Zalo AI và Viện JAIST giới thiệu phiên bản mới của VMLU.

Trong bối cảnh các mô hình AI ngày càng trở nên thông minh, phiên bản VMLU được nâng cấp để đánh giá sâu hơn những năng lực phức tạp. Cụ thể, bộ tiêu chuẩn mở rộng đánh giá 3 kỹ năng cốt lõi của một LLM hiện đại, bao gồm:

Đọc hiểu (ViSQuAD): 3.310 câu hỏi đánh giá khả năng hiểu sâu văn bản, xử lý các câu hỏi phức tạp dựa trên đặc thù ngôn ngữ và ngữ cảnh tiếng Việt.

Suy luận (ViDrop): 3.090 câu hỏi thách thức khả năng suy luận logic của LLM qua các tác vụ như so sánh, đếm và tính toán số học.

Tương tác (ViDialog): 210 hội thoại đánh giá sự mạch lạc, khả năng hiểu ngữ cảnh và vận dụng kiến thức đa lĩnh vực (lịch sử, địa lý, logic) trong đối thoại.

Điểm nổi bật của bộ tiêu chuẩn mới là phương pháp đánh giá tiên tiến, kết hợp đa dạng hình thức từ trắc nghiệm, câu hỏi mở đến yêu cầu suy luận từng bước. Đặc biệt, VMLU áp dụng phương pháp “LLM as a judge” (dùng LLM để đánh giá LLM) - một xu hướng đang được cộng đồng AI toàn cầu áp dụng để có kết quả khách quan và quy mô hơn.

Với 10.880 câu hỏi trắc nghiệm, thuộc 58 chủ đề, được chia theo nhiều cấp độ, phiên bản 2023 đã tập trung vào đánh giá kiến thức nền tảng của LLM. Trong khi đó, bộ tiêu chuẩn mới tiến một bước xa hơn, đo lường khả năng suy luận và tương tác của LLM trong những ngữ cảnh thực tế. Sự nâng cấp này không chỉ giúp các nhà phát triển đánh giá mô hình toàn diện hơn, mà còn thúc đẩy LLM tạo ra những giá trị hữu ích cho người dùng cuối.

Bộ tiêu chuẩn mở rộng đánh giá 3 kỹ năng cốt lõi của một LLM hiện đại.

“Thế giới hiện có hàng trăm bộ tiêu chuẩn khác nhau để đánh giá năng lực của các mô hình ngôn ngữ lớn. Tuy nhiên, số lượng các bộ tiêu chuẩn đánh giá phục vụ riêng cho tiếng Việt lại rất hạn chế. Với việc ra mắt các bộ tiêu chuẩn vào năm 2023 và 2025, chúng tôi mong muốn đa dạng hóa các phương diện đánh giá”, TS Châu Thành Đức, Giám đốc Nghiên cứu & Phát triển Trí tuệ nhân tạo tại Zalo AI cho biết.

Bộ tiêu chuẩn mới đã được ra mắt trên website VMLU https://vmlu.ai/ để các cá nhân và nhóm nghiên cứu thực hiện đánh giá mô hình của mình.

Bộ tiêu chuẩn mới đã được ra mắt trên website VMLU.

Với sự hợp tác của các chuyên gia đầu ngành tại Zalo AI và Viện JAIST, VMLU sẽ tiếp tục nghiên cứu xây dựng các bộ tiêu chuẩn đánh giá đa dạng hơn về lĩnh vực cũng như độ khó. Trong tương lai, VMLU cũng hướng tới phát triển các bộ tiêu chuẩn đánh giá tính an toàn và trung thực, đảm bảo các mô hình LLM được phát triển một cách có trách nhiệm.

VMLU là Bộ tiêu chuẩn đánh giá năng lực của các mô hình LLM tiếng Việt do Zalo AI phối hợp cùng Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST) xây dựng và cung cấp miễn phí cho cộng đồng từ tháng 11/2023. Bên cạnh việc đánh giá, VMLU cũng xếp hạng các mô hình ngôn ngữ lớn, giúp các nhà phát triển tự so sánh năng lực mô hình của mình với các LLM tiếng Việt hiện có trên thị trường.

Nguồn ZNews: https://znews.vn/bo-tieu-chuan-make-in-vietnam-danh-gia-suy-luan-tuong-tac-cua-llm-post1589609.html

VMLU

Bộ_tiêu_chuẩn_đánh_giá_mô_hình_ngôn_ngữ_lớn_LLM

Bộ_tiêu_chuẩn_đánh_giá_LLM_VMLU

Bộ_tiêu_chuẩn_đánh_giá_LLM

Bộ_tiêu_chuẩn_LLM_của_Zalo_và_JAIST

Tin liên quan

'Nhà vệ sinh vận hành bằng nấm' đầu tiên trên thế giới có thể thay thế những buồng vệ sinh di động

SVO - Trong chương trình thử nghiệm này, nấm sẽ loại bỏ mùi hôi của nhà vệ sinh.

Tiền Phong 4 giờ trước

'Nếu không có đổi mới sáng tạo, sẽ không có FPT ngày hôm nay'

Ông Đặng Tấn Đức, Viện trưởng Viện R&D Becamex cho rằng phần lớn hoạt động của chúng ta tập trung vào lắp ráp có

VietNamNet 6 giờ trước

Tổng giám đốc FPT: Chưa được hướng dẫn khấu trừ chi phí cho đổi mới sáng tạo khi tính thuế

Ý kiến được ông Nguyễn Văn Khoa - Tổng giám đốc Tập đoàn FPT - chia sẻ tại Diễn đàn chính sách đổi mới sáng tạo quốc

Tuổi Trẻ 7 giờ trước

Tân cử nhân và bài toán tìm việc thời đại AI

Voices of Galaxy là chuỗi phim ngắn tôn vinh những câu chuyện bình dị của người trẻ Việt Nam nỗ lực trong hành trình

Tuổi Trẻ 8 giờ trước

Người nông dân ở Hải Phòng có tới 40 sáng chế để giúp bà con nông dân đỡ vất vả

‘Làm sao để bà con nông dân quê mình đỡ vất vả hơn, giảm bớt nhọc nhằn mà vẫn có mùa vụ bội thu’?

VietNamNet 10 giờ trước

2/3 người trưởng thành bị lừa trên mạng, mỗi nạn nhân mất 660 USD

Hành vi lừa đảo trên mạng đã tạo ra cơn khủng hoảng lớn cho các quốc gia Đông Nam Á khi tỉ lệ gần 2/3 số người trưởng

VietNamNet 10 giờ trước

Hàn Quốc thử nghiệm hệ thống định vị chính xác từng cm mà không cần Internet

Hệ thống Trạm tham chiếu ảo dạng lưới (G-VRS) được cho là có thể cung cấp dữ liệu định vị thời gian thực, với độ chín

Tuổi Trẻ 10 giờ trước

Đề xuất thành lập Trung tâm Nghiên cứu về công nghệ đại dương

Các chuyên gia đề xuất các giải pháp cho sự phát triển công nghệ đại dương ở Khánh Hòa, góp phần phát triển kinh tế b

Tuổi Trẻ 11 giờ trước

Hàng loạt đại gia bán dẫn đến Hà Nội trong tháng 11

Trong hai ngày 7 – 8/11/2025, Triển lãm ngành công nghiệp bán dẫn Việt Nam 2025 (SEMIEXPO Vietnam 2025) sẽ được tổ ch

VietNamNet 11 giờ trước

Tấn công mạng dựa trên AI có quy mô và ảnh hưởng lớn

Sự phát triển vượt bậc về AI và ứng dụng trong an ninh mạng cũng đồng thời làm gia tăng các cuộc tấn công mạng dựa tr

VietNamNet 11 giờ trước

DigiInfra 2025: CMC Telecom gây ấn tượng với Nền tảng cho chủ quyền số an toàn

Ngày 30/9 tại DigiInfra 2025 Hà Nội, CMC Telecom gây ấn tượng với hệ sinh thái CMC Cloud và CCSP, khẳng định vị thế t

VietNamNet 11 giờ trước

Người mất tiền tỷ vì ‘coin Shark Bình’

Nhiều người thua lỗ vì đầu tư tiền số AntEX tìm cách “đòi công bằng”, lấy lại tài sản bị thiệt hại sau khi Shark Bình

ZNews 12 giờ trước

Người cao tuổi “về đâu” giữa dòng chảy công nghệ?

Ngày 1/10 hàng năm được Liên Hợp Quốc chọn làm Ngày Quốc tế Người cao tuổi.

ZNews 13 giờ trước

Hà Nội ba năm liên tiếp đứng đầu cả nước về chỉ số đổi mới sáng tạo cấp địa phương

Tại Ngày hội Đổi mới sáng tạo quốc gia năm 2025, Bộ Khoa học và Công nghệ đã công bố top 5 địa phương dẫn đầu cả nước

Tuổi Trẻ 14 giờ trước

Vốn hóa Nvidia vượt 4,5 nghìn tỷ USD, cuộc bùng nổ AI tiếp tục 'nóng'

Vốn hóa Nvidia vừa lần đầu tiên vượt mốc 4,5 nghìn tỷ USD, lập kỷ lục mới trên thị trường chứng khoán, khẳng định vị

VietNamNet 14 giờ trước

Bộ tiêu chuẩn 'Make in Vietnam' đánh giá suy luận, tương tác của LLM

Tin liên quan

Tin nổi bật