“Saltpeter should be obtained with what purity?” A classical Chinese dialogue AI even easily jailbreaks? The paper reveals an LLM security loophole
Nghiên cứu cho thấy, văn ngôn do tính chất hàm ẩn khó hiểu của nó, có thể dễ dàng vượt qua tuyến phòng thủ an toàn của các mô hình ngôn ngữ lớn. Nhóm nghiên cứu đã sử dụng khung CC-BOS để thực hiện một cuộc tấn công jailbreak với tỷ lệ thành công gần 90%, qua đó làm lộ ra điểm mù trong huấn luyện an toàn của AI đối với văn ngôn, cho thấy lỗ hổng khi mô hình xử lý ngôn ngữ cổ điển.
CryptoCity·04-03 00:40