[논문 리뷰] "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on LLM(2023)
개요모두의 연구소 8기 "공정 지속가능 신뢰할 수 있는 인공지능 안내서"에서 러너로 활동하며 AI 안전성에 관심을 가지게 되었습니다.이에 AI 안전성 특성 중, 탈옥 프롬프트(jailbreak prompt)에 관심을 갖게 되어, 2023년 8월에 발표된 논문 "Do Anything Now" 논문을 리뷰하게 되었습니다.AI 안전성이 글을 읽기 전, AI 안전성 개념, jailbreak(탈옥), 적대적 공격(adversarial attack) 개념이 궁금하신 분들은 아래 글을 참고하시면 좋을 것 같습니다.2024.05.04 - [Ethical AI] - [Trustworthy AI] 적대적 공격에 대응해 AI 안전성 확보하기 [Trustworthy AI] 적대적 공격에 대응해 AI 안전성 확보하기개요가짜 연..
2024.05.07