Chatbot bị lừa tiết lộ thông tin độc hại

Các nhà nghiên cứu cho biết, việc các chatbot tiết lộ thông tin bất hợp pháp là mối đe dọa “rất hiện hữu và đáng lo ngại”.

Theo các nhà nghiên cứu, các chatbot bị hack có khả năng cung cấp kiến thức nguy hiểm và thông tin bất hợp hợp pháp mà chúng đã tiếp nhận trong quá trình đào tạo. Cảnh báo này được đưa ra sau khi một số chatbot đã bị “bẻ khóa” để vượt qua các biện pháp kiểm soát an toàn của chúng.

Các hạn chế này nhằm ngăn chương trình cung cấp câu trả lời gây hại, thiên vị hoặc không phù hợp cho các câu hỏi của người dùng.

Các mô hình ngôn ngữ lớn (LLM) như ChatGPT , Gemini và Claude đều được cung cấp lượng lớn tài liệu từ Internet. Bất chấp những nỗ lực loại bỏ văn bản có hại khỏi dữ liệu đào tạo, LLM vẫn có thể hấp thụ thông tin về các hoạt động bất hợp pháp như tin tặc, rửa tiền, giao dịch nội gián và chế tạo bom. Các biện pháp bảo mật được thiết kế để ngăn chặn chúng sử dụng thông tin đó trong phản hồi của mình.

Trong một báo cáo, các nhà nghiên cứu kết luận rằng hầu hết các chatbot do AI điều khiển đều dễ bị đánh lừa để đưa ra thông tin độc hại và bất hợp pháp, cho thấy rủi ro là “tức thời, hữu hình và vô cùng đáng lo ngại”.

“Những gì từng bị hạn chế trong chính quyền nhà nước hoặc các tổ chức tội phạm giờ có thể sớm nằm trong tay bất kỳ ai có máy tính xách tay hoặc thậm chí là điện thoại di động”, các tác giả cảnh báo.

Nghiên cứu, dẫn đầu bởi giáo sư Lior Rokach và tiến sĩ Michael Fire tại Đại học Ben Gurion (Israel), đã xác định mối đe dọa ngày càng tăng từ “LLM đen” - các mô hình AI được cố tình thiết kế mà không có biện pháp kiểm soát an toàn hoặc được sửa đổi thông qua việc bẻ khóa. Một số được quảng cáo công khai trên mạng là “không có rào cản đạo đức” và sẵn sàng hỗ trợ các hoạt động bất hợp pháp như tội phạm mạng và lừa đảo .

Việc bẻ khóa thường sử dụng các câu hỏi được thiết kế cẩn thận để lừa chatbot tạo ra câu trả lời chứa nội dung bị cấm. Nó khai thác sự mâu thuẫn giữa mục tiêu chính của chương trình là làm theo hướng dẫn của người dùng, và mục tiêu thứ cấp là tránh tạo ra các câu trả lời gây hại, thiên vị, phi đạo đức hoặc bất hợp pháp. Các câu hỏi sẽ tạo ra tình huống sao cho chương trình ưu tiên tính hữu ích hơn là an toàn.

Để chứng minh vấn đề, các nhà nghiên cứu đã phát triển một phiên bản bẻ khóa phổ quát, thành công tấn công nhiều chatbot hàng đầu và khiến chúng trả lời các câu hỏi mà thông thường sẽ bị từ chối. Một khi bị xâm nhập, các LLM liên tục tạo ra phản hồi cho hầu hết mọi phạm trù.

“Thật kinh ngạc khi thấy hệ thống này bao gồm những kiến thức gì”, ông Fire cho biết. Các ví dụ bao gồm cách hack mạng máy tính , chế tạo ma túy và hướng dẫn từng bước cho các hoạt động tội phạm khác.

“Điều khiến mối đe dọa này khác biệt so với các rủi ro công nghệ trước đây là sự kết hợp chưa từng có giữa khả năng truy cập, khả năng mở rộng và khả năng thích ứng”, ông Rokach nói thêm.

Các nhà nghiên cứu đã liên hệ với các nhà cung cấp LLM hàng đầu để cảnh báo họ về hiện tượng bẻ khóa phổ biến, nhưng họ “không mấy để tâm”. Một số công ty đã không phản hồi, trong khi những công ty khác cho biết, việc bẻ khóa nằm ngoài phạm vi các chương trình an ninh có thưởng, vốn để khuyến khích tin tặc báo cáo lỗ hổng phần mềm.

Báo cáo đề xuất các công ty công nghệ nên sàng lọc dữ liệu đào tạo cẩn thận hơn, thêm tường lửa mạnh để chặn các câu hỏi rủi ro và phát triển kỹ thuật để các chatbot có thể “quên” mọi thông tin bất hợp pháp mà chúng tiếp cận. Báo cáo nói thêm rằng “LLM đen” nên được coi là “rủi ro bảo mật nghiêm trọng”, tương đương với vũ khí và chất nổ không được cấp phép.

Giáo sư Peter Garraghan, chuyên gia bảo mật AI tại Đại học Lancaster, cho biết: “Các tổ chức phải coi LLM giống như bất kỳ phần mềm quan trọng nào khác - một thành phần đòi hỏi phải kiểm tra bảo mật nghiêm ngặt, liên tục và thích ứng với mối đe dọa”.

“Đúng vậy, bẻ khóa là mối lo ngại, nhưng nếu không hiểu cặn kẽ mô hình AI, thì bên chịu trách nhiệm vẫn sẽ hời hợt. Bảo mật thực sự không chỉ đòi hỏi một quá trình công khai mà còn phải được thiết kế và áp dụng thực tế một cách chặt chẽ”, ông nói thêm.

OpenAI, công ty xây dựng ChatGPT, cho biết mô hình “o1” mới nhất của họ có thể xem xét các chính sách an toàn của công ty, giúp cải thiện khả năng bảo mật của công ty trước các cuộc tấn công. Công ty cho biết thêm rằng, họ luôn tìm kiếm phương pháp để cải thiện an ninh các chương trình.

Theo theguardian.com

Nguồn CafeF: https://cafef.vn/chatbot-bi-lua-tiet-lo-thong-tin-doc-hai-188250609081745795.chn

Tin liên quan

Công nghệ 11/11: Microsoft khai tử Publisher, Blue Origin hoãn phóng

Microsoft ngừng hỗ trợ Publisher sau 35 năm; Blue Origin của Jeff Bezos hoãn lần phóng thứ hai tên lửa New Glenn do t

CafeF 2 giờ trước

Người dân sắp mua hàng, đặt tour du lịch trên mạng cần “bỏ túi” 6 lưu ý quan trọng này

Công an cảnh báo thủ đoạn lừa đảo tinh vi nhắm đến người tiêu dùng phổ thông, đặc biệt là những người có thói quen mu

CafeF 3 giờ trước

Đừng nghĩ hacker chỉ nhắm tới người giàu, đây mới là những thứ chúng cần nhất

Thực tế, hacker lại ưu tiên thu gom những dữ liệu cá nhân đơn giản nhất như ảnh giấy tờ tùy thân, email, danh bạ hay

CafeF 17 giờ trước

Tôi đã sai hoàn toàn khi nghĩ rằng website hoặc email trông "sang-xịn-mịn" thì không phải là lừa đảo

Lầm tưởng rằng “chuyên nghiệp thì an toàn” đang khiến rất nhiều người sập bẫy lừa đảo tinh vi - bởi chính những kẻ xấ

CafeF 19 giờ trước

Từ 1/1/2026, quy định mới mà ai dùng Momo, ZaloPay... đều phải biết

Ngân hàng Nhà nước vừa ban hành Thông tư 41/2025 (sửa đổi, bổ sung Thông tư 40/2024), nhằm siết chặt quản lý hoạt độn

CafeF 19 giờ trước

Hãy dừng lại ngay lập tức nếu bạn đang sử dụng ChatGPT cho mục đích này

Đây là việc nếu bạn nhờ cậy ChatGPT có thể mang lại hậu quả nghiêm trọng, thậm chí nguy hiểm.

CafeF 20 giờ trước

Nhóm đối tượng lừa 400 người chiếm đoạt 10 tỷ đồng qua dự án tiền ảo Agold

Công an TP Hải Phòng khởi tố nhóm đối tượng lập dự án tiền ảo Agold, lôi kéo hàng trăm người đầu tư theo mô hình đa c

CafeF 21 giờ trước

Công nghệ 10/11: Samsung bị rò rỉ dữ liệu, Trung Quốc trỗi dậy trong ngành chip

Thiết bị Samsung Galaxy bị tin tặc tấn công, Trung Quốc khẳng định vai trò trong chuỗi cung ứng bán dẫn toàn cầu...

CafeF 22 giờ trước

Bộ Tài chính cảnh báo khẩn, người dân cần cảnh giác cao độ

Bộ Tài chính khuyến nghị người dân cần cảnh giác trước tình trạng lừa đảo này.

CafeF 1 ngày trước

Đằng sau giá rẻ có thể là chiếc bẫy

Cảnh giác với hàng giá rẻ, kiểm tra kỹ thông tin người bán, tài khoản bán hàng có lượt đánh giá cao, nhiều bình luận

CafeF 1 ngày trước

Bắt nhóm in tờ rơi, lập Fanpage quảng cáo “tín dụng đen”

Công an Đồng Nai vừa bắt giữ 7 đối tượng hoạt động “tín dụng đen”, cho vay lãi suất cao, thu lợi bất chính.

CafeF 1 ngày trước

Amazon ra mắt ứng dụng mua sắm giá rẻ cho nhiều thị trường

Ứng dụng mua sắm Bazaar sẽ cung cấp cho người dùng hàng trăm nghìn sản phẩm giá cả phải chăng thuộc các danh mục như

CafeF 1 ngày trước

Sếp TikTok Shop: Các shop có điểm dưới 4 sao đã bắt đầu bị đặt dấu hỏi, còn bị đánh giá 1 sao là "ác mộng"

Đại diện của TikTok Shop cho biết người tiêu dùng trên thương mại điện tử ngày càng chú trọng đến chất lượng của sản

CafeF 1 ngày trước

Lừa đảo xuyên biên giới tại Đông Nam Á: Các nước vào cuộc

Mới đây nhất, chính quyền Myanmar cho biết đang phá hủy 148 tòa nhà trong chiến dịch trấn áp tụ điểm lừa đảo trực tuy

CafeF 1 ngày trước

Cảnh báo nóng tới tất cả người dân

Big Tech - những công ty công nghệ hàng đầu - vẫn đang đổ tiền cho AI trong khi các nhà đầu tư đang tỏ ra mất kiên nh

CafeF 1 ngày trước

Chatbot bị lừa tiết lộ thông tin độc hại

Tin liên quan

Tin nổi bật