Balanced data란?

균형 데이터(Balanced Data)는 분류 작업에서 각 클래스(레이블)의 샘플 수가 비슷한 데이터셋을 의미합니다. 불균형 데이터는 머신러닝 모델이 다수 클래스에 치우쳐 소수 클래스를 제대로 예측하지 못하게 만듭니다. 균형을 맞추는 기법에는 오버샘플링(SMOTE), 언더샘플링, 합성 데이터 생성, 가중치 조정 등이 있으며, 의료 진단·사기 탐지처럼 소수 클래스가 중요한 문제에서 필수적입니다.