Adversarial machine learning란?

적대적 머신러닝(Adversarial Machine Learning)은 머신러닝 모델을 속이거나 오작동시키기 위해 악의적으로 조작된 입력을 생성·탐지·방어하는 연구 분야입니다. 공격자는 이미지에 미세한 노이즈를 추가해 모델의 분류를 왜곡하거나, 학습 데이터에 독을 주입해 모델 성능을 저하시킬 수 있습니다. 방어 기법으로는 적대적 학습(adversarial training), 입력 정제, 모델 견고성 평가 등이 있습니다. AI 시스템의 보안 및 신뢰성 확보에 중요한 영역입니다.