Reinforcement Learning 주어진 상황에서 최적의 결과를 얻기 위한 행동을 결정하는 문제 인간이 시도와 실패를 반복하며 문제를 해결하는 것과 유사

표현 및 과정

  • Agent와 Environment로 구성
  1. Environment는 어떠한 상태(State)를 가짐
  2. Agent는 Action을 통해 환경의 State를 변화시킴
  3. 변화된 환경은 어떠한 Reward를 Agent에 제공
  4. 위 과정을 반복하며 최대의 Reward를 추구 (Objective)

수학적 표현

Markov Decision Process