AI alignment란?

AI 정렬(AI Alignment)은 AI 시스템의 목표·행동·출력이 인간의 가치·의도·지시와 일치하도록 만드는 과정입니다. 대규모 언어 모델이 유해하거나 허위인 출력을 생성하지 않고, 사용자 의도를 정확히 따르도록 훈련하는 것이 핵심입니다. RLHF(인간 피드백 강화학습), 헌법적 AI(Constitutional AI), 안전 미세조정 등이 주요 기법이며, AGI 시대의 핵심 연구 과제로 간주됩니다.