[Trustworthy AI] 적대적 공격에 대응해 AI 안전성 확보하기

2024. 5. 4. 13:13Ethical AI

개요

가짜 연구소 "공정, 지속 가능, 신뢰할 수 있는 인공지능을 위한 안내서" 8기 러너로 활동하며, 작성한 글입니다.

이번 글에서는 "Trustworthy AI"의 특성 중, 하나인 "SAFETY" 측면에서의 적대적 공격과 관련에 다루어보고자 합니다.

작성된 글은 2024년 TTA에서 발표한 "신뢰할 수 있는 인공지능 개발 안내서 - 생성 AI 기반 서비스 분야"에서 적대적 공격에 관한 내용만 찾아 정리한 내용입니다. 


인공지능 신뢰성 개념

✅ 데이터 및 모델의 편향, 인공지능 기술에 내재한 위험과 한계 해결

✅ 인공지능 활용하고 확산하는 과정에서 부작용 방지하기 위해 준수해야 하는 가치

✅ 일반적으로 안전성, 설명가능성, 투명성, 견고성, 공정성 등이 신뢰성 확보하는 데 필수적 요소로 거론


인공지능 신뢰성의 주요 핵심 속성 및 의미

핵심 속성 의미
안전성
SAFETY
AI가 판단·예측한 결과로 시스템이 동작하거나 기능 수행했을 때, 사람과 환경에 위험 줄 가능성이 완화 or 제거된 상태
설명가능성
EXPLANABILITY
AI가 판단·예측한 근거와 결과에 이르는 과정이 사람이 이해할 수 있는 방식으로 제시되거나, 문제 발생 시 발생에 이르게 한 원인 추적할 수 있는 상태
투명성
TRANSPARENCY
AI가 내린 결정에 대한 이유가 설명 가능하거나 근거가 추적 가능
AI 목적과 한계에 대한 정보가 적합한 방식으로 사용자에게 전달되는 상태
견고성
ROBUSTNESS
외부 간섭이나 극한적 운영 환경 등에서도 사용자가 의도한 수준의 성능 및 기능 유지하는 상태
공정성
FAIRNESS
데이터 처리 과정에서 특정 그룹에 대한 차별, 편향성 나타내거나, 차별 및 편향 포함한 결론에 이르지 않는 상태

인공지능 신뢰성 특성

✅ EC, OECD, IEEE, ISO/IEC 등 여러 기구에서 제시한 속성과 키워드 종합적으로 분석

✅ 국가 인공지능 윤리기준 10대 요건에 대응시켜 기술적 측면에서 다룰만한 특성 4개 최종 선정

신뢰성 특성 정의
다양성
존중
AI가 특정 개인이나 그룹에 대한 차별적이고 편향된 관행 학습하거나 결과 출력하지 않으며, 인종·성별·연령 등과 같은 특성과 관계없이 모든 사람이 평등하게 인공지능 기술 혜택 받을 있는 것
- 관련 속성: 공정성·공평성(fairness), 정당성(justice)
- 관련 키워드: 편향(bias), 차별(discrimination), 편견(prejudice), 다양성(diversity), 평등(equality)
- 국제표준(ISO/IEC TR 24027:2021 - Bias in AI Systems and AI aided decision making)에서는 공정성 정의 하지 않음. 공정성은 복잡하고 문화·세대·지역 및 정치적 견해에 따라 다양하여 사회적으로나 윤리적으로 일관되게 정의하기 힘들기 때문
책임성 AI가 생멍주기 전반에 걸쳐 추론 결과에 대한 책임 보장하기 위한 메커니즘 마련되어 있는 것
- 관련 속성: 책무성(responsibility), 감사가능성(auditability), 답변가능성(answerability)
- 관련 키워드: 책임(liability)
- 국제 표준(ISO/IEC TR 24028:2020 - Overview of trustworthiness in AI) 정의: 엔터티(Entity) 작업이 해당 엔터티에 대해 고유하게 추적될 수 있도록 하는 속성
안전성 AI가 인간의 생명·건강·재산 또는 환경 해치지 않으며, 공격 및 보안 위협 등 다양한 위험에 대한 관리 대책 마련되어 있는 것
- 관련 속성: 보안성(security), 견고성·강건성(robustness), 성능 보장성(reliability), 통제가능성·제어가능성(controllability)
- 관련 키워드: 적대적 공격(adversarial attack), 회복 탄력성(resilience), 프라이버시(privacy)
- 국제표준(ISO/IEC TR 24028:2020) 정의: 용인할 수 없는 위험(risk)으로부터 자유
투명성 AI가 추론한 결과를 인간이 이해하고 추적할 수 있으며, AI가 추론한 결과임을 알 수 있는 것
- 관련 속성: 설명가능성(explanability), 이해가능성(understandability), 추적가능성(traceability), 해석가능성(interpretability)
- 관련 키워드: 설명가능한 인공지능(XAI, eXplainable AI), 이해도(comprehensibility)
- 국제표준(ISO/IEC TR 29119-11:2020 - Guidelineds on the testing of AI-based systems) 정의: 시스템에 대한 적절한 정보가 관련 이해 관계자에게 제공되는 시스템의 속성

신뢰할 수 있는 AI 기술 개발 핵심

✅ 다양한 환경에서 일관되고 안전하게 작동

✅ 적대적인 공격에 대처

✅ 신뢰할 수 있는 결과 생성

✅ 의도치 않게 유해하거나 혼란스럽고 편향된 콘텐츠 생성하지 않도록 윤리적 측면도 중요 


레드팀 설계(Red Team)

  • 적대적 공격에 대비해 조직이 AI 시스템을 안전하게 보호하는 방법
  • 예기치 않은 입력(예: 즉각적인 인젝션 공격 포함)에 견딜 수 있도록 레드팀 설계와 같은 테스트 환경으로 시스템의 견고성 평가하고 개선
  • 비정상적이거나 범위를 벗어난 쿼리에 대한 모델의 응답 평가하고 이를 원활하게 처리하는 메커니즘 개발

레드팀 역할

✅ 시뮬레이션된 공격이 사용자 및 제품에 미치는 영향 평가하고 이러한 공격에 대한 복원력 높일 수 있는 방법 파악

✅ 핵심 시스템에 내장된 새로운 AI 탐지 및 방지 기능의 복원력 분석하고, 공격자가 이를 우회할 수 있는 방법 조사

✅ 레드팀 결과 활용해 공격을 조기에 발견하고 사고 대응 팀이 적절하게 대응할 수 있도록 탐지 기능 향상

✅ 제품에 AI를 사용하는 개발자가 주요 위험 이해할 수 있도록 돕는 것과 필요에 따라 보안 통제에 대한 위험, 주도적이고 정보에 입각한 조직 투자를 옹호하는 2가지 이유로 관련 이해관계자들의 인식 높임

 

데이터 수집 및 처리

외부에 노출되어 있는 모델은 보안 위협에 취약

  • 공격자는 모델 자체를 직접 공격할 수도 있지만, 데이터와 학습 데이터도 공격 대상으로 삼고 있음
  • 많은 경우, 학습용 데이터를 공격하여 조작하는 것이 모델 자체에 접근하는 것보다 쉬울 수 있음
  • 극단적인 경우, 공격자는 훈련 테스트 데이터를 공격함으로써 모델에 접근하여 탈취하기도 함

✅ 생성 언어 모델 개발할 때, 공격자는 프롬프트 인젝션 사용해 데이터 손상하거나 데이터 침해해 모델 공격하는 경우

  • 공격자의 악의적이고 적대적 공격은 수집·획득한 인공지능 학습 데이터뿐만 아니라 내부적으로 수집하여 구축한 학습 데이터에 대해서도 발생할 수 있음

 데이터 중독으로 개발된 모델의 성능 저하시킴

  • 학습용 데이터의 일부를 표적으로 삼아, 모델 학습시 편향되고 유해한 콘텐츠 생성하도록 유도하는 데이터를 추가하거나 변조하거나 삭제
데이터 공격 방어 기법 기술 내용
사전 식별 및 완화 데이터에 대한 사이버 위협으로부터 데이터 보호하려면, 공격 경로 사전에 식별하고 완화하는 것 중요
시스템 동작, 네트워크 트래픽, 입출력 패턴을 지속적으로 모니터링하고 분석해 비정상적이거나 악의적인 활동 탐지하는 것 포함
고급 분석 및 이상 탐지 기술 활용해 잠재적인 공격 식별하고 적시에 예방 조치 취할 수 있음
학습용 데이터 검증 학습용 데이터를 신중하게 선별하고 검증해 오염되거나 악의적인 샘플 포함되지 않도록 하는 것
데이터 소스 철저히 조사하고 데이터 검증 기술 활용해 데이터 중독 공격의 위험 완화
인증된 방어 기능 인증된 방어의 목표는 데이터 중독 공격에 견고함 보장하는 것
가장 잘 알려진 연구는 프레임워크로 2017년 발표된 "Certified defenses for data poisioning attacks"에 등장(특정 방어에 대해 전체 공격 영역 검사하도록 설계. 이상 징후 제외 및 경험적 위험 최소화 채택)

 


적대적 공격에 대한 방어 연구 사례

✅ 생성 AI 모델에서는 일부 데이터 유형에 대한 공격 심함

  • 비디오, 시계열 데이터와 같은 이미지, 텍스트, 표 형식 데이터 등

✅ 이러한 모델은 의도된 용도와 인간의 삶에 미치는 영향으로 인해 지속적으로 공격에 노출됨

✅ 방어 매커니즘 선택할 때, 개발자는 모델이 받을 수 있는 데이터 공격을 고려

✅ 생성 AI 모델에 대한 적대적 데이터 공격과 관련된 최근 연구 사례

연구 방어 기법 연구

- ChatGPT와 같은 LLM의 생성 편향 문제에 초점 맞추고 있음
- 이 모델은 악의적이거나 적대적인 프롬프트의 결과로 유해한 텍스트 생성할 수 있음
- 저자는 이런 공격에 대응하기 위한 2가지 방법, 1) 학습이 필요 없는 접두사 프롬프트 매커니즘, 2) RoBERTa 기반 외부 탐지 모델 제안
- 이 방법들의 효과는 실험과 평가 통해 입증되었음
<출처: Adversarial Attacks on Large Language Model-Based System and Mitigating Strategies: A Casd Study on ChatGPT, 2023>

- 안정적인 확산 모델의 데이터와 프롬프트를 대상으로 실험 수행
- 텍스트-이미지 생성 위한 생성 모델링 기법인 안정적 확산 모델에 대한 쿼리 없는 적대적 공격을 제안하는 파일럿 연구를 개략적으로 설명
- 텍스트 인코더의 취약점을 활용한 비표적/표적 공격을 탐구
- 실험 결과, 텍스트 프롬프트의 작은 교란이 원본 이미지의 내용을 크게 변경할 수 있음 시사
- PGD 공격, 욕심 검색, 유전 알고리즘 등 다양한 공격 방법이 사용됨
<출처: A pilot study of query-free adversarial attack against stable diffusion, 2023>
- 4가지 단어 치환 기반 적대적 공격에 대한 BERT(언어 모델)의 견고성에 대해 논의
- 데이터 증강과 후처리 단계로 구성된 효과적인 방어 방법 제안
- 적대적 예시 분포를 근사화하고 모델 견고성을 효과적으로 개선
- 이 방어 방법은 정확도 손실 없이 적대적 예제의 최대 3분의 2를 방지할 수 있으며, 후처리 단계를 통해 공격 성공률을 10% 미만으로 낮출 수 있음 
<출처: Bert is Robust! A Case Against Word Substitution-Based Adversarial Attacks, 2023>

 


인공지능 모델 공격에 대한 방어 대책 수립

✅ AI 모델은 적대적 의도 가진 사용자에 의해 잘못된 의사결정 하도록 유도하는 공격의 대상 될 수 있음

모델 공격이 가능한 상황 파악하였는가

✅ 생성 AI 모델에서 탈옥(jailbreak)이란, 악의적인 목적의 사용자가 모델의 취약점 악용해 유해한 정보를 생성해 내도록 유도하는 것

✅ 이런 공격에 대응하기 위해, 워터마킹, 프롬프트 수 제한, 프롬프트 필터링 등과 같은 전략으로 위험 완화하고 보안 강화해야 함 

✅ 적대적 공격은 신중하게 설계된 입력(프롬프트) 통해 AI 모델 조작하는 것이 목표

✅ 방어 메커니즘은 적대적인 변화가 없는 출력 데이터 식별하여 공격으로부터 효과적으로 방어할 수 있는 방법


생성 AI 모델에 대한 적대적 공격 사례

✅ 생성형 AI 모델과 딥러닝 모델은 프롬프트 공격, 표적 공격 등 다양한 유형의 공격에 취약

이로 인해 유해하고 예측할 수 없는 결과 나올 수 있음

✅ 탈옥은 생성 AI 기반 서비스에서 입력 데이터 조작해 잘못된 결과 생성하는 프롬프트 공격 포함

  • 공격자는 생성 AI를 사용하여 딥페이크 또는 대규모 허위 정보 캠페인 생성할 수 있음
  • 모델에 대한 입력 조작하여 모델이 잘못된 예측이나 분류하도록 모델의 학습 데이터에 대해 민감한 정보 노출하거나 의도하지 않은 방식으로 작동하도록 속일 수 있음

DAN(Do Anything Now) 모드란 생성 AI 모델을 탈옥시킬 수 있는 프롬프트를 작성하여 생성 AI의 제한된 동작을 해제하는 방법


데이터 유형별 공격 가능한 적대적 사례

✅ 생성 AI 모델에서의 공격은 프롬프트에 의해 이루어짐

✅ 이러한 공격은 대부분 입출력 필터링하는 것으로 해결됨

 하지만 모델 접근 제한이 해제된 경우, 모델에 대한 직접적 공격도 가능

  • 모델 백도어 설정? AI 모델에 의도적으로 숨기젼 기능이나 약점 설치하는 것
  • 백도어는 모델이 특정 입력이나 조건에서만 특별한 행동 가능하게 하도록 조정
  • 예를 들어, 특정 단어나 패턴 입력하면 모델이 일반적인 행동과 다르게 작동하도록 설정

데이터 공격 및 방어 기술의 예

공격 기술 분류 공격 기법 대표적인 방어 기술
데이터 중독
공격
그라데이션 기반 모델 배포한 후, 입력 데이터 분포의 변화 수용하기 위해 새로 수집한 데이터로 재학습
하지만, 공격자가 프롬프트나 피드백 등 통해 신중하게 조작되어 변조된 데이터를 학습 데이터셋에 주입하여 악용할 수 있는 취약점 존재
AI 모델 무결성과 보안 유지하려면 재학습 과정에서 이러한 데이터 오염 탐지하고 방지할 수 있는 강력한 매커니즘 구현 필요
데이터 살균
강력한 교육
인증된 방어
적대적 훈련
그라데이션 마스킹(증류)
피처 스퀴징
매개변수화된 쿼리
입력 살균
출력 인코딩
GAN 기반
백도어
클린 라벨 중독
공격 회피 학습 모델이 입력을 정확하게 식별할 수 없도록 기존 입력 데이터에 미묘한 노이즈 차이 추가해 조작된 입력 데이터 생성
이러한 변화는 사람의 눈에 잘 띄지 않지만 모델의 출력에 큰 영향 미침
프롬프트 인젝션 공격 프롬프트 기반 학습을 활용하는 LLM의 심각한 취약점
프롬프트에 악성 콘텐츠를 삽입해 잠재적으로 무단 액세스 및 데이터 도난으로 이어질 수 있음
프롬프트는 AI 언어 모델의 동작 안내하는 데 필수적
다양한 유형의 프롬프트 삽입 공격은 모델과 대중의 신뢰에 심각한 위협 가함

IBM의 적대적 견고성 툴박스(ART)

IBM의 오픈 소스 프로젝트인 ART(Adversarial Robustness Toolbox)는 적대적 위협으로부터 머신러닝(ML) 모델과 애플리케이션을 평가, 방어, 인증 및 검증하기 위한 도구 제공해 모델 보안 강화하도록 설계된 Python 라이브러리

✅ 공격 및 방어 도구가 포함되어 있으며, 개발자와 연구자가 회피, 중독, 추출, 추론 공격 등 다양한 위협으로부터 모델과 애플리케이션 보호하고 평가할 수 있도록 지원

✅ ML 프레임워크, 다양한 데이터 유형(표, 이미지, 오디오, 텍스트, 비디오 등), 분류, 객체 탐지, 음성 인식, 생성, 인증과 같은 광범위한 작업 지원


참고

[TTA] 2024 신뢰할 수 있는 인공지능 개발안내서 - 생성 AI 기반 서비스 분야