2024. 5. 4. 13:13ㆍEthical AI
개요
가짜 연구소 "공정, 지속 가능, 신뢰할 수 있는 인공지능을 위한 안내서" 8기 러너로 활동하며, 작성한 글입니다.
이번 글에서는 "Trustworthy AI"의 특성 중, 하나인 "SAFETY" 측면에서의 적대적 공격과 관련에 다루어보고자 합니다.
작성된 글은 2024년 TTA에서 발표한 "신뢰할 수 있는 인공지능 개발 안내서 - 생성 AI 기반 서비스 분야"에서 적대적 공격에 관한 내용만 찾아 정리한 내용입니다.
인공지능 신뢰성 개념
✅ 데이터 및 모델의 편향, 인공지능 기술에 내재한 위험과 한계 해결
✅ 인공지능 활용하고 확산하는 과정에서 부작용 방지하기 위해 준수해야 하는 가치
✅ 일반적으로 안전성, 설명가능성, 투명성, 견고성, 공정성 등이 신뢰성 확보하는 데 필수적 요소로 거론
인공지능 신뢰성의 주요 핵심 속성 및 의미
핵심 속성 | 의미 |
안전성 SAFETY |
AI가 판단·예측한 결과로 시스템이 동작하거나 기능 수행했을 때, 사람과 환경에 위험 줄 가능성이 완화 or 제거된 상태 |
설명가능성 EXPLANABILITY |
AI가 판단·예측한 근거와 결과에 이르는 과정이 사람이 이해할 수 있는 방식으로 제시되거나, 문제 발생 시 발생에 이르게 한 원인 추적할 수 있는 상태 |
투명성 TRANSPARENCY |
AI가 내린 결정에 대한 이유가 설명 가능하거나 근거가 추적 가능 AI 목적과 한계에 대한 정보가 적합한 방식으로 사용자에게 전달되는 상태 |
견고성 ROBUSTNESS |
외부 간섭이나 극한적 운영 환경 등에서도 사용자가 의도한 수준의 성능 및 기능 유지하는 상태 |
공정성 FAIRNESS |
데이터 처리 과정에서 특정 그룹에 대한 차별, 편향성 나타내거나, 차별 및 편향 포함한 결론에 이르지 않는 상태 |
인공지능 신뢰성 특성
✅ EC, OECD, IEEE, ISO/IEC 등 여러 기구에서 제시한 속성과 키워드 종합적으로 분석
✅ 국가 인공지능 윤리기준 10대 요건에 대응시켜 기술적 측면에서 다룰만한 특성 4개 최종 선정
신뢰성 특성 | 정의 |
다양성 존중 |
AI가 특정 개인이나 그룹에 대한 차별적이고 편향된 관행 학습하거나 결과 출력하지 않으며, 인종·성별·연령 등과 같은 특성과 관계없이 모든 사람이 평등하게 인공지능 기술 혜택 받을 있는 것 - 관련 속성: 공정성·공평성(fairness), 정당성(justice) - 관련 키워드: 편향(bias), 차별(discrimination), 편견(prejudice), 다양성(diversity), 평등(equality) - 국제표준(ISO/IEC TR 24027:2021 - Bias in AI Systems and AI aided decision making)에서는 공정성 정의 하지 않음. 공정성은 복잡하고 문화·세대·지역 및 정치적 견해에 따라 다양하여 사회적으로나 윤리적으로 일관되게 정의하기 힘들기 때문 |
책임성 | AI가 생멍주기 전반에 걸쳐 추론 결과에 대한 책임 보장하기 위한 메커니즘 마련되어 있는 것 - 관련 속성: 책무성(responsibility), 감사가능성(auditability), 답변가능성(answerability) - 관련 키워드: 책임(liability) - 국제 표준(ISO/IEC TR 24028:2020 - Overview of trustworthiness in AI) 정의: 엔터티(Entity) 작업이 해당 엔터티에 대해 고유하게 추적될 수 있도록 하는 속성 |
안전성 | AI가 인간의 생명·건강·재산 또는 환경 해치지 않으며, 공격 및 보안 위협 등 다양한 위험에 대한 관리 대책 마련되어 있는 것 - 관련 속성: 보안성(security), 견고성·강건성(robustness), 성능 보장성(reliability), 통제가능성·제어가능성(controllability) - 관련 키워드: 적대적 공격(adversarial attack), 회복 탄력성(resilience), 프라이버시(privacy) - 국제표준(ISO/IEC TR 24028:2020) 정의: 용인할 수 없는 위험(risk)으로부터 자유 |
투명성 | AI가 추론한 결과를 인간이 이해하고 추적할 수 있으며, AI가 추론한 결과임을 알 수 있는 것 - 관련 속성: 설명가능성(explanability), 이해가능성(understandability), 추적가능성(traceability), 해석가능성(interpretability) - 관련 키워드: 설명가능한 인공지능(XAI, eXplainable AI), 이해도(comprehensibility) - 국제표준(ISO/IEC TR 29119-11:2020 - Guidelineds on the testing of AI-based systems) 정의: 시스템에 대한 적절한 정보가 관련 이해 관계자에게 제공되는 시스템의 속성 |
신뢰할 수 있는 AI 기술 개발 핵심
✅ 다양한 환경에서 일관되고 안전하게 작동
✅ 적대적인 공격에 대처
✅ 신뢰할 수 있는 결과 생성
✅ 의도치 않게 유해하거나 혼란스럽고 편향된 콘텐츠 생성하지 않도록 윤리적 측면도 중요
레드팀 설계(Red Team)
- 적대적 공격에 대비해 조직이 AI 시스템을 안전하게 보호하는 방법
- 예기치 않은 입력(예: 즉각적인 인젝션 공격 포함)에 견딜 수 있도록 레드팀 설계와 같은 테스트 환경으로 시스템의 견고성 평가하고 개선
- 비정상적이거나 범위를 벗어난 쿼리에 대한 모델의 응답 평가하고 이를 원활하게 처리하는 메커니즘 개발
레드팀 역할
✅ 시뮬레이션된 공격이 사용자 및 제품에 미치는 영향 평가하고 이러한 공격에 대한 복원력 높일 수 있는 방법 파악
✅ 핵심 시스템에 내장된 새로운 AI 탐지 및 방지 기능의 복원력 분석하고, 공격자가 이를 우회할 수 있는 방법 조사
✅ 레드팀 결과 활용해 공격을 조기에 발견하고 사고 대응 팀이 적절하게 대응할 수 있도록 탐지 기능 향상
✅ 제품에 AI를 사용하는 개발자가 주요 위험 이해할 수 있도록 돕는 것과 필요에 따라 보안 통제에 대한 위험, 주도적이고 정보에 입각한 조직 투자를 옹호하는 2가지 이유로 관련 이해관계자들의 인식 높임
데이터 수집 및 처리
✅ 외부에 노출되어 있는 모델은 보안 위협에 취약
- 공격자는 모델 자체를 직접 공격할 수도 있지만, 데이터와 학습 데이터도 공격 대상으로 삼고 있음
- 많은 경우, 학습용 데이터를 공격하여 조작하는 것이 모델 자체에 접근하는 것보다 쉬울 수 있음
- 극단적인 경우, 공격자는 훈련 테스트 데이터를 공격함으로써 모델에 접근하여 탈취하기도 함
✅ 생성 언어 모델 개발할 때, 공격자는 프롬프트 인젝션 사용해 데이터 손상하거나 데이터 침해해 모델 공격하는 경우
- 공격자의 악의적이고 적대적 공격은 수집·획득한 인공지능 학습 데이터뿐만 아니라 내부적으로 수집하여 구축한 학습 데이터에 대해서도 발생할 수 있음
✅ 데이터 중독으로 개발된 모델의 성능 저하시킴
- 학습용 데이터의 일부를 표적으로 삼아, 모델 학습시 편향되고 유해한 콘텐츠 생성하도록 유도하는 데이터를 추가하거나 변조하거나 삭제
데이터 공격 방어 기법 | 기술 내용 |
사전 식별 및 완화 | 데이터에 대한 사이버 위협으로부터 데이터 보호하려면, 공격 경로 사전에 식별하고 완화하는 것 중요 시스템 동작, 네트워크 트래픽, 입출력 패턴을 지속적으로 모니터링하고 분석해 비정상적이거나 악의적인 활동 탐지하는 것 포함 고급 분석 및 이상 탐지 기술 활용해 잠재적인 공격 식별하고 적시에 예방 조치 취할 수 있음 |
학습용 데이터 검증 | 학습용 데이터를 신중하게 선별하고 검증해 오염되거나 악의적인 샘플 포함되지 않도록 하는 것 데이터 소스 철저히 조사하고 데이터 검증 기술 활용해 데이터 중독 공격의 위험 완화 |
인증된 방어 기능 | 인증된 방어의 목표는 데이터 중독 공격에 견고함 보장하는 것 가장 잘 알려진 연구는 프레임워크로 2017년 발표된 "Certified defenses for data poisioning attacks"에 등장(특정 방어에 대해 전체 공격 영역 검사하도록 설계. 이상 징후 제외 및 경험적 위험 최소화 채택) |
적대적 공격에 대한 방어 연구 사례
✅ 생성 AI 모델에서는 일부 데이터 유형에 대한 공격 심함
- 비디오, 시계열 데이터와 같은 이미지, 텍스트, 표 형식 데이터 등
✅ 이러한 모델은 의도된 용도와 인간의 삶에 미치는 영향으로 인해 지속적으로 공격에 노출됨
✅ 방어 매커니즘 선택할 때, 개발자는 모델이 받을 수 있는 데이터 공격을 고려
✅ 생성 AI 모델에 대한 적대적 데이터 공격과 관련된 최근 연구 사례
연구 | 방어 기법 연구 |
|
- ChatGPT와 같은 LLM의 생성 편향 문제에 초점 맞추고 있음 - 이 모델은 악의적이거나 적대적인 프롬프트의 결과로 유해한 텍스트 생성할 수 있음 - 저자는 이런 공격에 대응하기 위한 2가지 방법, 1) 학습이 필요 없는 접두사 프롬프트 매커니즘, 2) RoBERTa 기반 외부 탐지 모델 제안 - 이 방법들의 효과는 실험과 평가 통해 입증되었음 <출처: Adversarial Attacks on Large Language Model-Based System and Mitigating Strategies: A Casd Study on ChatGPT, 2023> |
- 안정적인 확산 모델의 데이터와 프롬프트를 대상으로 실험 수행 - 텍스트-이미지 생성 위한 생성 모델링 기법인 안정적 확산 모델에 대한 쿼리 없는 적대적 공격을 제안하는 파일럿 연구를 개략적으로 설명 - 텍스트 인코더의 취약점을 활용한 비표적/표적 공격을 탐구 - 실험 결과, 텍스트 프롬프트의 작은 교란이 원본 이미지의 내용을 크게 변경할 수 있음 시사 - PGD 공격, 욕심 검색, 유전 알고리즘 등 다양한 공격 방법이 사용됨 <출처: A pilot study of query-free adversarial attack against stable diffusion, 2023> |
|
- 4가지 단어 치환 기반 적대적 공격에 대한 BERT(언어 모델)의 견고성에 대해 논의 - 데이터 증강과 후처리 단계로 구성된 효과적인 방어 방법 제안 - 적대적 예시 분포를 근사화하고 모델 견고성을 효과적으로 개선 - 이 방어 방법은 정확도 손실 없이 적대적 예제의 최대 3분의 2를 방지할 수 있으며, 후처리 단계를 통해 공격 성공률을 10% 미만으로 낮출 수 있음 <출처: Bert is Robust! A Case Against Word Substitution-Based Adversarial Attacks, 2023> |
인공지능 모델 공격에 대한 방어 대책 수립
✅ AI 모델은 적대적 의도 가진 사용자에 의해 잘못된 의사결정 하도록 유도하는 공격의 대상 될 수 있음
모델 공격이 가능한 상황 파악하였는가
✅ 생성 AI 모델에서 탈옥(jailbreak)이란, 악의적인 목적의 사용자가 모델의 취약점 악용해 유해한 정보를 생성해 내도록 유도하는 것
✅ 이런 공격에 대응하기 위해, 워터마킹, 프롬프트 수 제한, 프롬프트 필터링 등과 같은 전략으로 위험 완화하고 보안 강화해야 함
✅ 적대적 공격은 신중하게 설계된 입력(프롬프트) 통해 AI 모델 조작하는 것이 목표
✅ 방어 메커니즘은 적대적인 변화가 없는 출력 데이터 식별하여 공격으로부터 효과적으로 방어할 수 있는 방법
생성 AI 모델에 대한 적대적 공격 사례
✅ 생성형 AI 모델과 딥러닝 모델은 프롬프트 공격, 표적 공격 등 다양한 유형의 공격에 취약
✅ 이로 인해 유해하고 예측할 수 없는 결과 나올 수 있음
✅ 탈옥은 생성 AI 기반 서비스에서 입력 데이터 조작해 잘못된 결과 생성하는 프롬프트 공격 포함
- 공격자는 생성 AI를 사용하여 딥페이크 또는 대규모 허위 정보 캠페인 생성할 수 있음
- 모델에 대한 입력 조작하여 모델이 잘못된 예측이나 분류하도록 모델의 학습 데이터에 대해 민감한 정보 노출하거나 의도하지 않은 방식으로 작동하도록 속일 수 있음
✅ DAN(Do Anything Now) 모드란 생성 AI 모델을 탈옥시킬 수 있는 프롬프트를 작성하여 생성 AI의 제한된 동작을 해제하는 방법
데이터 유형별 공격 가능한 적대적 사례
✅ 생성 AI 모델에서의 공격은 프롬프트에 의해 이루어짐
✅ 이러한 공격은 대부분 입출력 필터링하는 것으로 해결됨
✅ 하지만 모델 접근 제한이 해제된 경우, 모델에 대한 직접적 공격도 가능
- 모델 백도어 설정? AI 모델에 의도적으로 숨기젼 기능이나 약점 설치하는 것
- 백도어는 모델이 특정 입력이나 조건에서만 특별한 행동 가능하게 하도록 조정
- 예를 들어, 특정 단어나 패턴 입력하면 모델이 일반적인 행동과 다르게 작동하도록 설정
데이터 공격 및 방어 기술의 예
공격 기술 분류 | 공격 기법 | 대표적인 방어 기술 | |
데이터 중독 공격 |
그라데이션 기반 | 모델 배포한 후, 입력 데이터 분포의 변화 수용하기 위해 새로 수집한 데이터로 재학습 하지만, 공격자가 프롬프트나 피드백 등 통해 신중하게 조작되어 변조된 데이터를 학습 데이터셋에 주입하여 악용할 수 있는 취약점 존재 AI 모델 무결성과 보안 유지하려면 재학습 과정에서 이러한 데이터 오염 탐지하고 방지할 수 있는 강력한 매커니즘 구현 필요 |
데이터 살균 강력한 교육 인증된 방어 적대적 훈련 그라데이션 마스킹(증류) 피처 스퀴징 매개변수화된 쿼리 입력 살균 출력 인코딩 |
GAN 기반 | |||
백도어 | |||
클린 라벨 중독 | |||
공격 회피 | 학습 모델이 입력을 정확하게 식별할 수 없도록 기존 입력 데이터에 미묘한 노이즈 차이 추가해 조작된 입력 데이터 생성 이러한 변화는 사람의 눈에 잘 띄지 않지만 모델의 출력에 큰 영향 미침 |
||
프롬프트 인젝션 공격 | 프롬프트 기반 학습을 활용하는 LLM의 심각한 취약점 프롬프트에 악성 콘텐츠를 삽입해 잠재적으로 무단 액세스 및 데이터 도난으로 이어질 수 있음 프롬프트는 AI 언어 모델의 동작 안내하는 데 필수적 다양한 유형의 프롬프트 삽입 공격은 모델과 대중의 신뢰에 심각한 위협 가함 |
IBM의 적대적 견고성 툴박스(ART)
✅ IBM의 오픈 소스 프로젝트인 ART(Adversarial Robustness Toolbox)는 적대적 위협으로부터 머신러닝(ML) 모델과 애플리케이션을 평가, 방어, 인증 및 검증하기 위한 도구 제공해 모델 보안 강화하도록 설계된 Python 라이브러리
✅ 공격 및 방어 도구가 포함되어 있으며, 개발자와 연구자가 회피, 중독, 추출, 추론 공격 등 다양한 위협으로부터 모델과 애플리케이션 보호하고 평가할 수 있도록 지원
✅ ML 프레임워크, 다양한 데이터 유형(표, 이미지, 오디오, 텍스트, 비디오 등), 분류, 객체 탐지, 음성 인식, 생성, 인증과 같은 광범위한 작업 지원
참고
'Ethical AI' 카테고리의 다른 글
[논문 리뷰] "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on LLM(2023) (1) | 2024.05.07 |
---|