dan(2)
-
[논문 리뷰] "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on LLM(2023)
개요모두의 연구소 8기 "공정 지속가능 신뢰할 수 있는 인공지능 안내서"에서 러너로 활동하며 AI 안전성에 관심을 가지게 되었습니다.이에 AI 안전성 특성 중, 탈옥 프롬프트(jailbreak prompt)에 관심을 갖게 되어, 2023년 8월에 발표된 논문 "Do Anything Now" 논문을 리뷰하게 되었습니다.AI 안전성이 글을 읽기 전, AI 안전성 개념, jailbreak(탈옥), 적대적 공격(adversarial attack) 개념이 궁금하신 분들은 아래 글을 참고하시면 좋을 것 같습니다.2024.05.04 - [Ethical AI] - [Trustworthy AI] 적대적 공격에 대응해 AI 안전성 확보하기 [Trustworthy AI] 적대적 공격에 대응해 AI 안전성 확보하기개요가짜 연..
2024.05.07 -
[Trustworthy AI] 적대적 공격에 대응해 AI 안전성 확보하기
개요가짜 연구소 "공정, 지속 가능, 신뢰할 수 있는 인공지능을 위한 안내서" 8기 러너로 활동하며, 작성한 글입니다.이번 글에서는 "Trustworthy AI"의 특성 중, 하나인 "SAFETY" 측면에서의 적대적 공격과 관련에 다루어보고자 합니다.작성된 글은 2024년 TTA에서 발표한 "신뢰할 수 있는 인공지능 개발 안내서 - 생성 AI 기반 서비스 분야"에서 적대적 공격에 관한 내용만 찾아 정리한 내용입니다. 인공지능 신뢰성 개념✅ 데이터 및 모델의 편향, 인공지능 기술에 내재한 위험과 한계 해결✅ 인공지능 활용하고 확산하는 과정에서 부작용 방지하기 위해 준수해야 하는 가치✅ 일반적으로 안전성, 설명가능성, 투명성, 견고성, 공정성 등이 신뢰성 확보하는 데 필수적 요소로 거론인공지능 신뢰성의 주요..
2024.05.04