Reinforcement Learning란?

강화 학습(Reinforcement Learning, RL)은 에이전트가 환경과 상호작용하며 보상을 최대화하는 정책을 학습하는 머신러닝 패러다임입니다. Q-learning, Policy Gradient, Actor-Critic, PPO 등이 주요 알고리즘이며, AlphaGo, 자율주행, 로봇 제어, LLM의 인간 피드백 강화학습(RLHF) 등에 활용됩니다. 시행착오로 학습한다는 점에서 지도학습·비지도학습과 구분됩니다.