AI safety란?

AI 안전성(AI Safety)은 AI 시스템이 의도된 대로 안전하게 동작하고 의도치 않은 해를 끼치지 않도록 설계·검증·운영하는 연구 영역입니다. 강건성(robustness), 정렬(alignment), 해석 가능성(interpretability), 가드레일(guardrails) 등이 핵심 주제이며, 특히 강력한 생성형 AI와 자율 에이전트의 확산으로 중요성이 커지고 있습니다. 기업은 레드팀 테스트, 평가 벤치마크, 안전 정책을 통해 배포 전후 위험을 관리합니다.