2 min read

모델 크기와 상관없이 적은 양의 악성 문서만으로도 LLM을 오염시킬 수 있다

컨텍스트에 그냥 많은 양을 집어넣기보다는 '정교하게 선별된 고품질 문서'를 집어넣는 게 중요하다는 게 재확인됐습니다.


오늘 읽은 셀렉트스타 뉴스레터에서 흥미로운 연구를 소개받았습니다. 앤트로픽, 튜링 연구소, 영국 AI 보안 연구소의 공동 연구였어요. (앤트로픽 원문 링크)

<SUDO> 문구 뒤에 의미없는 문장을 집어넣은 '악성 문서'를 몇 개 학습시켰을 때 백도어 공격이 성공하는지, 즉 프롬프트에 <SUDO>를 넣으면 그 뒤쪽이 의도대로 의미없는 문장이 나오는지 확인한 연구였고요. 흥미롭게도 모델의 크기와 상관없이 250개의 악성 문서만 학습시켜도 공격이 성공했다고 하더군요.


저는 '적은 양의 데이터만으로도 대규모 모델이 흔들릴 수 있다'는 게 흥미로웠어요. 그리고 이게 직접 AI 모델을 만드는 연구자가 아니라 AI 사용자 입장에서도 유의미한 연구라고 생각합니다. 컨텍스트에 그냥 많은 양을 집어넣기보다는 '정교하게 선별된 고품질 문서'를 집어넣는 게 중요하다는 게 재확인된 거니까요.

물론 (모델의 파라미터를 바꿔버리는) 훈련 데이터에 대한 연구에서 나온 함의를 훈련 후 집어넣는 프롬프트를 사용할 때 적용하는 게 조금 위험한 해석일 수는 있겠습니다만. 관련된 후속 연구를 기대해봅니다.

앤트로픽의 결론부에 대한 Gemini의 해설 덧붙여둡니다.