적대적 머신러닝(Adversarial Machine Learning)은 머신러닝 모델을 속이거나 오작동시키기 위해 악의적으로 조작된 입력을 생성·탐지·방어하는 연구 분야입니다. 공격자는 이미지에 미세한 노이즈를 추가해 모델의 분류를 왜곡하거나, 학습 데이터에 독을 주입해 모델 성능을 저하시킬 수 있습니다. 방어 기법으로는 적대적 학습(adversarial training), 입력 정제, 모델 견고성 평가 등이 있습니다. AI 시스템의 보안 및 신뢰성 확보에 중요한 영역입니다.