Markov Decision Process (MDP)
1. 개요
순차적인 의사결정 문제(Sequential Decision Making)를 수학적으로 모델링한 프레임워크다. 에이전트(Agent)가 환경(Environment)과 상호작용하며, 매 시점 상태(State)를 관측하고 행동(Action)을 취해 보상(Reward)을 최대화하는 과정을 다룬다.
핵심 전제: 마르코프 성질 (Markov Property)
“미래는 오직 현재에 의해 결정되며, 과거는 상관없다.” 현재 상태
는 과거의 모든 역사(History) 정보를 함축하고 있다고 가정한다.
2. MDP의 5대 구성 요소 (Tuple)
MDP는 보통 5개의 튜플
2.1. 상태 집합 ( , State Space)
- 에이전트가 관측할 수 있는 모든 상황의 집합.
2.2. 행동 집합 ( , Action Space)
- 에이전트가 취할 수 있는 모든 행동의 집합.
2.3. 전이 확률 함수 ( , Transition Probability)
- 현재 상태
에서 행동 를 했을 때, 다음 상태 로 넘어갈 확률. (환경의 모델)
2.4. 보상 함수 ( , Reward Function)
- 어떤 상태에서 행동을 취해 변화가 일어났을 때 받는 즉각적인 보상값.
- 초안의 정의:
(전이까지 고려한 가장 일반적 형태) - 일반적 정의: 보통 기댓값으로 표현하여
로 쓰기도 한다.
2.5. 할인율 ( , Discount Factor)
- 미래에 받을 보상의 가치를 현재 시점으로 환산할 때 사용하는 비율.
- 수학적 이유: 무한한 시간(Infinite Horizon) 동안의 보상 합이 발산하지 않고 수렴하게 만듦.
- 직관적 이유: 미래의 불확실성을 반영하며, 당장의 보상을 선호하는 성향을 모델링함.
3. 에이전트의 목표 (Objective)
3.1. 반환값 (Return, )
에피소드가 끝날 때까지 받는 **할인된 누적 보상의 합(Discounted Sum of Rewards)**이다. (초안의
3.2. 정책 (Policy, )
- 각 상태에서 어떤 행동을 할지 결정하는 전략(함수).
- Deterministic:
- Stochastic:
3.3. 목적 함수 (Objective Function)
최적의 정책
4. 가치 함수 (Value Function)
목적을 달성하기 위해 “현재 상태가 얼마나 좋은지”를 평가하는 함수가 필요하다.
4.1. 상태 가치 함수 (State-Value Function, )
상태
4.2. 행동 가치 함수 (Action-Value Function, )
상태
5. 벨만 방정식 (Bellman Equation)
현재 상태의 가치와 다음 상태의 가치 사이의 재귀적(Recursive) 관계식이다. MDP를 푸는 핵심 열쇠다.
“현재의 가치 = (즉각적 보상 + 감가된 미래의 가치)의 기댓값”
6. Planning vs Learning
MDP 문제를 푼다는 것은 최적 정책
6.1. Planning (Dynamic Programming)
- 상황: 전이 함수
와 보상 함수 를 모두 알고 있음 (Model-based). - 방법: 환경에 대한 완벽한 지도가 있으므로, 시뮬레이션 없이 계산만으로 최적해를 구함.
- 알고리즘: Policy Iteration, Value Iteration.
6.2. Reinforcement Learning (RL)
- 상황:
와 을 모르는 상태 (Model-free). (초안의 마지막 문장) - 방법: 에이전트가 직접 환경과 상호작용하며 얻은 데이터(경험)
를 통해 함수를 추정함. - 알고리즘: Monte Carlo, SARSA, Q-Learning.
7. 요약
“MDP는 강화학습이 풀고자 하는 문제(Problem) 자체를 정의한 수학적 명세서이고, 강화학습은 그 문제의 정답지(Model)가 없을 때 답을 찾아가는 풀이법(Method)이다.”