Càng thông minh, mô hình AI càng cần bộ tiêu chuẩn đánh giá năng lực phức tạp

Sự phát triển nhanh chóng của các mô hình AI hiện đại đòi hỏi các bộ tiêu chuẩn đánh giá sâu rộng các năng lực phức tạp, tạo động lực thúc đẩy hoàn thiện các mô hình ngôn ngữ lớn (LLM) bậc cao.

Báo cáo tình hình phát triển các mô hình ngôn ngữ lớn (LLM) tiếng Việt trong năm 2024 của VMLU (Nền tảng đánh giá và xếp hạng năng lực các mô hình LLM) cho thấy sự gia tăng mạnh mẽ số lượng các mô hình LLM tập trung vào tiếng Việt. Cụ thể, nền tảng VMLU đã công bố 45 LLM trên bảng xếp hạng, tiếp nhận yêu cầu đánh giá của hơn 155 tổ chức & cá nhân, tổng kết 691 lượt tải bộ tiêu chuẩn đánh giá và 3.729 lượt đánh giá LLM từ nền tảng trong năm 2024.

Nhiều tổ chức trong và ngoài nước đã, đang sử dụng VMLU như VinBigData, VNPT AI, Viettel Solutions, Trường ĐH Bách Khoa - ĐHQG TP.HCM, UONLP x Ontocord - Trường ĐH Oregon (Hoa Kỳ), DAMO Academy - Alibaba Group, SDSRV teams - Samsung…

Cùng với sự nở rộ về số lượng, chất lượng các mô hình LLM cũng ngày càng được cải thiện. Nếu như trước đây các LLM được huấn luyện xoay quanh những kiến thức nền tảng thì hiện nay, các nhà phát triển tập trung mở rộng nhiều hơn các kỹ năng như đọc hiểu, trao đổi hội thoại hay suy luận như con người.

Đáp ứng sự phát triển ngày một mạnh mẽ của các mô hình LLM tiếng Việt bậc cao, VMLU đã công bố các bộ tiêu chuẩn mới nhằm đánh giá sâu hơn những năng lực phức tạp của mô hình.

Những bộ tiêu chuẩn thúc đẩy sự hoàn thiện của LLM

Trước đây khi thị trường thiếu hụt các bộ tiêu chuẩn chất lượng, hầu hết các nhóm nghiên cứu trong nước đều phải tự xây dựng các bộ công cụ đánh giá nội bộ với những chuẩn mực riêng. Điều này làm hạn chế sự đánh giá cũng như việc so sánh chất lượng mô hình với các LLM hiện có trên thị trường để có chiến lược huấn luyện phù hợp.

Để giải quyết vấn đề này, tháng 11/2023, VMLU - Bộ tiêu chuẩn chung “Make in Việt Nam” được đội ngũ chuyên gia đầu ngành của Việt Nam nghiên cứu và cung cấp miễn phí cho cộng đồng.

Bộ tiêu chuẩn gồm 10.880 câu hỏi trắc nghiệm, thuộc 58 chủ đề, được chia theo nhiều cấp độ đã giúp các nhà phát triển dễ dàng tiếp cận với các bộ dữ liệu đánh giá tổng quát. Đồng thời tận dụng bảng xếp hạng của VMLU để trực tiếp so sánh mô hình của mình với các LLM hiện có trên thị trường.

TS. Đặng Trần Thái, Trưởng phòng xử lý ngôn ngữ tự nhiên - Khối công nghệ trợ lý ảo VinBigData có mô hình ViGPT-1.6B-v1 nằm trong bảng xếp hạng from-scratch models (LLM được huấn luyện từ đầu) của VMLU - cho biết: “VMLU có dữ liệu tương đối hoàn chỉnh và toàn diện để đánh giá năng lực về tri thức của LLM cho tiếng Việt. VMLU không chỉ hữu ích để đánh giá chất lượng LLM ở từng giai đoạn phát triển, mà còn là thước đo cho tính hiệu quả của các thử nghiệm của chúng tôi trong quá trình huấn luyện”.

“Đây sẽ là “bàn đạp” để thúc đẩy sự phát triển của AI nói chung và LLM nói riêng, vì phải có những bộ tiêu chuẩn tốt thì chúng ta mới có căn cứ huấn luyện những mô hình chất lượng cao”, TS. Đặng Trần Thái cho biết thêm.

Principal Engineer (Kỹ sư trưởng) tại Microsoft - TS. Bạch Hưng Nguyên cũng khẳng định sự hữu ích của VMLU trong việc đánh giá hiệu suất của mô hình LLM trên tiếng Việt, giúp các đơn vị phát triển hiểu rõ hơn về khả năng của mô hình. Ngoài ra, TS. Bạch Hưng Nguyên cũng kỳ vọng VMLU sẽ bổ sung thêm bộ đánh giá các kỹ năng hữu ích như suy luận, sinh mã nguồn, tóm tắt văn bản.

Phiên bản mới của VMLU hướng tới hoàn thiện các mô hình LLM bậc cao

Mới đây, VMLU tiếp tục công bố bộ tiêu chuẩn mới, đánh giá năng lực suy luận và tương tác của LLM. Bộ tiêu chuẩn mở rộng đánh giá 3 kỹ năng cốt lõi của một LLM hiện đại, bao gồm:

Đọc hiểu (ViSQuAD): 3.310 câu hỏi đánh giá khả năng hiểu sâu văn bản, xử lý các câu hỏi phức tạp dựa trên đặc thù ngôn ngữ và ngữ cảnh tiếng Việt.

Suy luận (ViDrop): 3.090 câu hỏi thách thức khả năng suy luận logic của LLM qua các tác vụ như so sánh, đếm, và tính toán số học.

Tương tác (ViDialog): 210 hội thoại đánh giá sự mạch lạc, khả năng hiểu ngữ cảnh và vận dụng kiến thức đa lĩnh vực (lịch sử, địa lý, logic) trong đối thoại.

Sự nâng cấp này không chỉ giúp các nhà phát triển đánh giá mô hình toàn diện hơn mà còn thúc đẩy LLM tạo ra những giá trị hữu ích cho người dùng cuối.

TS. Châu Thành Đức, Giám đốc Nghiên cứu & Phát triển Trí tuệ nhân tạo tại Zalo AI - tổ chức phát triển VMLU cho biết: “Thế giới hiện có hàng trăm bộ tiêu chuẩn khác nhau để đánh giá năng lực của các mô hình ngôn ngữ lớn. Tuy nhiên, số lượng các bộ tiêu chuẩn đánh giá phục vụ riêng cho tiếng Việt lại rất hạn chế. Với việc ra mắt các bộ tiêu chuẩn vào năm 2023 và 2025, chúng tôi mong muốn đa dạng hóa các phương diện đánh giá”.

Hiện bộ tiêu chuẩn mới đã được ra mắt trên website VMLU https://vmlu.ai/ để các cá nhân, và nhóm nghiên cứu thực hiện đánh giá mô hình của mình.

VMLU là nền tảng đánh giá và xếp hạng các mô hình LLM tiếng Việt do Zalo AI phối hợp với Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST) xây dựng và cung cấp miễn phí cho cộng đồng từ tháng 11/2023. Với nỗ lực đồng hành cùng cộng đồng AI Việt Nam, VMLU đang góp phần thúc đẩy năng lực làm chủ công nghệ mới của người Việt. Qua đó đóng góp vào kỷ nguyên phát triển công nghệ của đất nước với định hướng đột phá về khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia.

Bích Đào

Nguồn VietNamNet: https://vietnamnet.vn/cang-thong-minh-mo-hinh-ai-cang-can-bo-tieu-chuan-danh-gia-nang-luc-phuc-tap-2448553.html

mô hình ai

VMLU

Tin liên quan

Sẽ hết thời doanh nghiệp Việt bỏ tiền tỉ để có tiêu chuẩn an ninh mạng nước ngoài?

Theo các chuyên gia, khi Việt Nam có khung đánh giá, quy chuẩn sản phẩm, dịch vụ an ninh mạng sẽ mang lại nhiều giá t

Tuổi Trẻ 4 giờ trước

Cuộc chiến máy ảnh quay phim

Khi các hãng máy ảnh Nhật Bản chuyển dịch sang mirrorless, quay phim trở thành chức năng chính để cạnh tranh.

ZNews 8 giờ trước

Bị thao túng tâm lý, nạn nhân bỏ ngoài tai lời công an thật để chuyển tiền cho công an giả

Có những nạn nhân của lừa đảo trực tuyến bị thao túng tâm lý tới mức dù được công an đến tận nơi thuyết phục, họ khôn

VietNamNet 10 giờ trước

Lệnh trừng phạt của Mỹ giúp ‘thần đồng’ AI Trung Quốc thành tỷ phú đô la

Tài sản của nhà sáng lập công ty chip AI Cambricon Technologies, Chen Tianshi, đã tăng gấp đôi kể từ đầu năm lên mức

VietNamNet 11 giờ trước

Túi vải đựng iPhone giá ‘trên trời’ vẫn cháy hàng

Chiếc túi vải đựng iPhone có giá lên đến 230 USD (khoảng 6 triệu đồng), sản phẩm Apple hợp tác với Issey Miyake, bất

VietNamNet 11 giờ trước

Sử dụng AI hỗ trợ tổng điều tra nông thôn, nông nghiệp 2025

Bộ Khoa học và Công nghệ sẽ phối hợp hoàn thiện hệ thống công nghệ thông tin phục vụ Tổng điều tra, đảm bảo an toàn,

VietNamNet 12 giờ trước

Lý do 'cha đẻ' AI rời Meta

Nhà khoa học hàng đầu tin rằng mô hình ngôn ngữ lớn sẽ dẫn đến xao nhãng, và có định hướng riêng cho sự phát triển AI

ZNews 12 giờ trước

Hợp nhất Luật An ninh mạng và Luật An toàn thông tin mạng là yêu cầu tất yếu trong thời đại số

Các chuyên gia cho rằng, việc hợp nhất hai luật này sẽ tăng cường đồng bộ trong quản lý, hình thành một khung pháp lý

VietNamNet 12 giờ trước

Xe tăng Harimau tốc độ chóng mặt, giáp bất khuất chống mìn 10kg TNT, thống trị Đông Nam Á, ác mộng cho kẻ thù

Xe tăng Harimau - 'con hổ' thép lướt qua rừng rậm Indonesia với tốc độ chóng mặt 78 km/h, pháo 105mm và lớp giáp 'bất

VietNamNet 13 giờ trước

Bất mãn hệ thống y tế, dân Mỹ 'khám bệnh' với chatbot AI

Do những bất cập của hệ thống y tế, khoảng 1/6 người trưởng thành và 1/4 người trưởng thành dưới 30 tuổi tại Mỹ tìm k

Tuổi Trẻ 15 giờ trước

Người thế chỗ Tim Cook

Ở thời điểm Apple chuẩn bị cho giai đoạn chuyển giao lãnh đạo, John Ternus nổi lên như gương mặt được chú ý nhất khi

ZNews 16 giờ trước

Fan Samsung mong muốn gì ở Galaxy S26 Plus?

Samsung dường như đã chốt xong đội hình Galaxy S26 và Galaxy S26 Plus vẫn sẽ xuất hiện, với các hình ảnh rò rỉ cho th

VietNamNet 17 giờ trước

Apple sẵn sàng cho sự thay đổi chưa từng có của át chủ bài iPhone

Apple đang thực hiện đợt chuyển đổi lớn nhất trong lịch sử iPhone với kế hoạch ra mắt 3 mẫu máy hoàn toàn mới trong 3

VietNamNet 17 giờ trước

iPhone Air không bị 'khai tử'

Việc thế hệ tiếp theo của iPhone Air không xuất hiện vào năm 2026 có thể là động thái thay đổi chiến lược kinh doanh

ZNews 17 giờ trước

Đợt nâng cấp iPhone lớn nhất lịch sử

Nhà phân tích Mark Gurman cho rằng iPhone đang trải qua đợt nâng cấp quy mô lớn nhất từ trước đến nay, xét cả về tính

ZNews 18 giờ trước

Càng thông minh, mô hình AI càng cần bộ tiêu chuẩn đánh giá năng lực phức tạp

Tin liên quan

Tin nổi bật