강화 학습(Reinforcement Learning, RL)은 에이전트가 환경과 상호작용하며 보상을 최대화하는 정책을 학습하는 머신러닝 패러다임입니다. Q-learning, Policy Gradient, Actor-Critic, PPO 등이 주요 알고리즘이며, AlphaGo, 자율주행, 로봇 제어, LLM의 인간 피드백 강화학습(RLHF) 등에 활용됩니다. 시행착오로 학습한다는 점에서 지도학습·비지도학습과 구분됩니다.
강화 학습(Reinforcement Learning, RL)은 에이전트가 환경과 상호작용하며 보상을 최대화하는 정책을 학습하는 머신러닝 패러다임입니다. Q-learning, Policy Gradient, Actor-Critic, PPO 등이 주요 알고리즘이며, AlphaGo, 자율주행, 로봇 제어, LLM의 인간 피드백 강화학습(RLHF) 등에 활용됩니다. 시행착오로 학습한다는 점에서 지도학습·비지도학습과 구분됩니다.