[논문리뷰] Imperceptible Jailbreaking against Large Language Models

링크: 논문 PDF로 바로 열기

저자: Kuofeng Gao, Yiming Li, Chao Du, Xin Wang, Xingjun Ma, Shu-Tao Xia, Tianyu Pang

핵심 연구 목표

본 논문은 기존의 가시적인 텍스트 수정 방식과 달리 눈에 보이지 않는(imperceptible) 방식으로 LLM의 안전 장치를 우회하는 새로운 제일브레이크 공격 기법을 제안합니다. 시각적으로는 원본과 동일하게 보이지만 LLM의 토크나이저 단계에서 악의적인 행동을 유발하는 숨겨진 변경 사항을 도입하여 안전 정렬된 LLM이 유해한 응답을 생성하도록 하는 것이 목표입니다.

핵심 방법론

연구진은 Unicode variation selectors라는 비가시적 문자악의적인 질문접미사로 추가하여 공격을 수행합니다. 이 접미사는 화면에는 표시되지 않지만 LLM의 토크나이저에 의해 추가적인 토큰으로 인코딩됩니다. 최적의 적대적 접미사를 찾기 위해 표적-시작 토큰 (예: “Sure“)의 로그-우도를 최대화하는 chain-of-search pipeline을 제안하며, 이는 랜덤 탐색부트스트랩 방식을 통해 성공적인 접미사표적-시작 토큰을 재활용하여 점진적으로 성능을 향상시킵니다.

주요 결과

제안된 눈에 보이지 않는 제일브레이크Vicuna-13B-v1.5, Llama-2-Chat-7B, Mistral-7B-Instruct-v0.2 모델에서 100% 공격 성공률(ASR)을 달성했으며, Llama-3.1-Instruct-8B에서는 80% ASR을 기록하며 가시적인 변경 없이 높은 성능을 보였습니다 (Table 3). 또한, 프롬프트 인젝션 시나리오에서도 모든 테스트 LLM에서 100% ASR을 달성하며 공격의 일반화 능력을 입증했습니다 (Table 4). 어텐션 분석 결과, 모델의 어텐션유해한 콘텐츠에서 비가시적 접미사로 이동하여 안전 장치를 우회하는 것으로 나타났습니다.

AI 실무자를 위한 시사점

이 연구는 LLM의 안전성에 대한 새로운 취약점비가시적 문자 기반 공격의 가능성을 제시합니다. AI 실무자들은 LLM 시스템에 입력 필터링전처리 단계를 강화하여 Unicode variation selectors와 같은 숨겨진 문자를 식별하고 제거하는 메커니즘을 고려해야 합니다. 또한, 모델의 임베딩어텐션 분포를 모니터링하여 비정상적인 패턴을 탐지하고, perplexity-based filtering과 같은 출력 필터링 메커니즘을 강화하여 제일브레이크유해한 응답을 효과적으로 완화해야 합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Comments