Nhảy đến nội dung
 

Càng thông minh, mô hình AI càng cần bộ tiêu chuẩn đánh giá năng lực phức tạp

Sự phát triển nhanh chóng của các mô hình AI hiện đại đòi hỏi các bộ tiêu chuẩn đánh giá sâu rộng các năng lực phức tạp, tạo động lực thúc đẩy hoàn thiện các mô hình ngôn ngữ lớn (LLM) bậc cao.

Báo cáo tình hình phát triển các mô hình ngôn ngữ lớn (LLM) tiếng Việt trong năm 2024 của VMLU (Nền tảng đánh giá và xếp hạng năng lực các mô hình LLM) cho thấy sự gia tăng mạnh mẽ số lượng các mô hình LLM tập trung vào tiếng Việt. Cụ thể, nền tảng VMLU đã công bố 45 LLM trên bảng xếp hạng, tiếp nhận yêu cầu đánh giá của hơn 155 tổ chức & cá nhân, tổng kết 691 lượt tải bộ tiêu chuẩn đánh giá và 3.729 lượt đánh giá LLM từ nền tảng trong năm 2024.

Nhiều tổ chức trong và ngoài nước đã, đang sử dụng VMLU như VinBigData, VNPT AI, Viettel Solutions, Trường ĐH Bách Khoa - ĐHQG TP.HCM, UONLP x Ontocord - Trường ĐH Oregon (Hoa Kỳ), DAMO Academy - Alibaba Group, SDSRV teams - Samsung…  

Cùng với sự nở rộ về số lượng, chất lượng các mô hình LLM cũng ngày càng được cải thiện. Nếu như trước đây các LLM được huấn luyện xoay quanh những kiến thức nền tảng thì hiện nay, các nhà phát triển tập trung mở rộng nhiều hơn các kỹ năng như đọc hiểu, trao đổi hội thoại hay suy luận như con người. 

Đáp ứng sự phát triển ngày một mạnh mẽ của các mô hình LLM tiếng Việt bậc cao, VMLU đã công bố các bộ tiêu chuẩn mới nhằm đánh giá sâu hơn những năng lực phức tạp của mô hình.

Những bộ tiêu chuẩn thúc đẩy sự hoàn thiện của LLM 

Trước đây khi thị trường thiếu hụt các bộ tiêu chuẩn chất lượng, hầu hết các nhóm nghiên cứu trong nước đều phải tự xây dựng các bộ công cụ đánh giá nội bộ với những chuẩn mực riêng. Điều này làm hạn chế sự đánh giá cũng như việc so sánh chất lượng mô hình với các LLM hiện có trên thị trường để có chiến lược huấn luyện phù hợp. 

Để giải quyết vấn đề này, tháng 11/2023, VMLU - Bộ tiêu chuẩn chung “Make in Việt Nam” được đội ngũ chuyên gia đầu ngành của Việt Nam nghiên cứu và cung cấp miễn phí cho cộng đồng. 

Bộ tiêu chuẩn gồm 10.880 câu hỏi trắc nghiệm, thuộc 58 chủ đề, được chia theo nhiều cấp độ đã giúp các nhà phát triển dễ dàng tiếp cận với các bộ dữ liệu đánh giá tổng quát. Đồng thời tận dụng bảng xếp hạng của VMLU để trực tiếp so sánh mô hình của mình với các LLM hiện có trên thị trường. 

TS. Đặng Trần Thái, Trưởng phòng xử lý ngôn ngữ tự nhiên - Khối công nghệ trợ lý ảo VinBigData có mô hình ViGPT-1.6B-v1 nằm trong bảng xếp hạng from-scratch models (LLM được huấn luyện từ đầu) của VMLU - cho biết: “VMLU có dữ liệu tương đối hoàn chỉnh và toàn diện để đánh giá năng lực về tri thức của LLM cho tiếng Việt. VMLU không chỉ hữu ích để đánh giá chất lượng LLM ở từng giai đoạn phát triển, mà còn là thước đo cho tính hiệu quả của các thử nghiệm của chúng tôi trong quá trình huấn luyện​”. 

“Đây sẽ là “bàn đạp” để thúc đẩy sự phát triển của AI nói chung và LLM nói riêng, vì phải có những bộ tiêu chuẩn tốt thì chúng ta mới có căn cứ huấn luyện những mô hình chất lượng cao”, TS. Đặng Trần Thái cho biết thêm.  

Principal Engineer (Kỹ sư trưởng) tại Microsoft - TS. Bạch Hưng Nguyên cũng khẳng định sự hữu ích của VMLU trong việc đánh giá hiệu suất của mô hình LLM trên tiếng Việt, giúp các đơn vị phát triển hiểu rõ hơn về khả năng của mô hình. Ngoài ra, TS. Bạch Hưng Nguyên cũng kỳ vọng VMLU sẽ bổ sung thêm bộ đánh giá các kỹ năng hữu ích như suy luận, sinh mã nguồn, tóm tắt văn bản.

Phiên bản mới của VMLU hướng tới hoàn thiện các mô hình LLM bậc cao

Mới đây, VMLU tiếp tục công bố bộ tiêu chuẩn mới, đánh giá năng lực suy luận và tương tác của LLM. Bộ tiêu chuẩn mở rộng đánh giá 3 kỹ năng cốt lõi của một LLM hiện đại, bao gồm:

Đọc hiểu (ViSQuAD): 3.310 câu hỏi đánh giá khả năng hiểu sâu văn bản, xử lý các câu hỏi phức tạp dựa trên đặc thù ngôn ngữ và ngữ cảnh tiếng Việt.

Suy luận (ViDrop): 3.090 câu hỏi thách thức khả năng suy luận logic của LLM qua các tác vụ như so sánh, đếm, và tính toán số học.

Tương tác (ViDialog): 210 hội thoại đánh giá sự mạch lạc, khả năng hiểu ngữ cảnh và vận dụng kiến thức đa lĩnh vực (lịch sử, địa lý, logic) trong đối thoại.

Sự nâng cấp này không chỉ giúp các nhà phát triển đánh giá mô hình toàn diện hơn mà còn thúc đẩy LLM tạo ra những giá trị hữu ích cho người dùng cuối.   

TS. Châu Thành Đức, Giám đốc Nghiên cứu & Phát triển Trí tuệ nhân tạo tại Zalo AI - tổ chức phát triển VMLU cho biết: “Thế giới hiện có hàng trăm bộ tiêu chuẩn khác nhau để đánh giá năng lực của các mô hình ngôn ngữ lớn. Tuy nhiên, số lượng các bộ tiêu chuẩn đánh giá phục vụ riêng cho tiếng Việt lại rất hạn chế. Với việc ra mắt các bộ tiêu chuẩn vào năm 2023 và 2025, chúng tôi mong muốn đa dạng hóa các phương diện đánh giá”. 

Hiện bộ tiêu chuẩn mới đã được ra mắt trên website VMLU https://vmlu.ai/ để các cá nhân, và nhóm nghiên cứu thực hiện đánh giá mô hình của mình. 

VMLU là nền tảng đánh giá và xếp hạng các mô hình LLM tiếng Việt do Zalo AI phối hợp với Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST) xây dựng và cung cấp miễn phí cho cộng đồng từ tháng 11/2023. Với nỗ lực đồng hành cùng cộng đồng AI Việt Nam, VMLU đang góp phần thúc đẩy năng lực làm chủ công nghệ mới của người Việt. Qua đó đóng góp vào kỷ nguyên phát triển công nghệ của đất nước với định hướng đột phá về khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. 

Bích Đào

 
 
 
CÔNG TY CỔ PHẦN XÂY DỰNG SẢN XUẤT VÀ THƯƠNG MẠI ĐẠI SÀN
logo

Giấp phép đăng ký kinh doanh số 0103884103 do Sở Kế Hoạch & Đầu Tư Hà Nội cấp lần đầu ngày 29/06/2009.

Trụ sở chính: Gian số L4-07 tầng 4, nơ-2 - Gold Season, 47 Nguyễn Tuân, Thanh Xuân, Hà Nội

Email: daisanjsc@gmail.com

TRỤ SỞ HÀ NỘI

Địa chỉ Gian số L4-07 tầng 4, nơ-2 - Gold Season, 47 Nguyễn Tuân, Thanh Xuân, Hà Nội

Điện thoại  Điện thoại: 1900 98 98 36

Fax  Fax: 045625169

CHI NHÁNH HỒ CHÍ MINH

Địa chỉ 57/1c, Khu phố 1, Phường An Phú Đông, Quận 12, Thành phố Hồ Chí Minh

Điện thoại  Email: info@daisan.vn