Markov Decision Process (MDP)

1. 개요

순차적인 의사결정 문제(Sequential Decision Making)를 수학적으로 모델링한 프레임워크다. 에이전트(Agent)가 환경(Environment)과 상호작용하며, 매 시점 상태(State)를 관측하고 행동(Action)을 취해 보상(Reward)을 최대화하는 과정을 다룬다.

핵심 전제: 마르코프 성질 (Markov Property)

“미래는 오직 현재에 의해 결정되며, 과거는 상관없다.” 현재 상태 는 과거의 모든 역사(History) 정보를 함축하고 있다고 가정한다.

2. MDP의 5대 구성 요소 (Tuple)

MDP는 보통 5개의 튜플 로 정의된다.

2.1. 상태 집합 (, State Space)

에이전트가 관측할 수 있는 모든 상황의 집합.

2.2. 행동 집합 (, Action Space)

에이전트가 취할 수 있는 모든 행동의 집합.

2.3. 전이 확률 함수 (, Transition Probability)

현재 상태 에서 행동 를 했을 때, 다음 상태 로 넘어갈 확률. (환경의 모델)

2.4. 보상 함수 (, Reward Function)

어떤 상태에서 행동을 취해 변화가 일어났을 때 받는 즉각적인 보상값.
초안의 정의: (전이까지 고려한 가장 일반적 형태)
일반적 정의: 보통 기댓값으로 표현하여 로 쓰기도 한다.

2.5. 할인율 (, Discount Factor)

미래에 받을 보상의 가치를 현재 시점으로 환산할 때 사용하는 비율.
수학적 이유: 무한한 시간(Infinite Horizon) 동안의 보상 합이 발산하지 않고 수렴하게 만듦.
직관적 이유: 미래의 불확실성을 반영하며, 당장의 보상을 선호하는 성향을 모델링함.

3. 에이전트의 목표 (Objective)

3.1. 반환값 (Return, )

에피소드가 끝날 때까지 받는 **할인된 누적 보상의 합(Discounted Sum of Rewards)**이다. (초안의 )

3.2. 정책 (Policy, )

각 상태에서 어떤 행동을 할지 결정하는 전략(함수).
Deterministic:
Stochastic:

3.3. 목적 함수 (Objective Function)

최적의 정책 를 찾는 것이 목표다. 즉, 기대 반환값(Expected Return)을 최대화해야 한다.

4. 가치 함수 (Value Function)

목적을 달성하기 위해 “현재 상태가 얼마나 좋은지”를 평가하는 함수가 필요하다.

4.1. 상태 가치 함수 (State-Value Function, )

상태 에서 시작하여 정책 를 따랐을 때 기대되는 반환값.

4.2. 행동 가치 함수 (Action-Value Function, )

상태 에서 행동 를 하고, 그 이후에는 정책 를 따랐을 때 기대되는 반환값.

5. 벨만 방정식 (Bellman Equation)

현재 상태의 가치와 다음 상태의 가치 사이의 재귀적(Recursive) 관계식이다. MDP를 푸는 핵심 열쇠다.

“현재의 가치 = (즉각적 보상 + 감가된 미래의 가치)의 기댓값”

6. Planning vs Learning

MDP 문제를 푼다는 것은 최적 정책 를 찾는 것이다. 이때 와 을 아느냐 모르느냐가 핵심이다.

6.1. Planning (Dynamic Programming)

상황: 전이 함수 와 보상 함수 를 모두 알고 있음 (Model-based).
방법: 환경에 대한 완벽한 지도가 있으므로, 시뮬레이션 없이 계산만으로 최적해를 구함.
알고리즘: Policy Iteration, Value Iteration.

6.2. Reinforcement Learning (RL)

상황: 와 을 모르는 상태 (Model-free). (초안의 마지막 문장)
방법: 에이전트가 직접 환경과 상호작용하며 얻은 데이터(경험) 를 통해 함수를 추정함.
알고리즘: Monte Carlo, SARSA, Q-Learning.

7. 요약

“MDP는 강화학습이 풀고자 하는 문제(Problem) 자체를 정의한 수학적 명세서이고, 강화학습은 그 문제의 정답지(Model)가 없을 때 답을 찾아가는 풀이법(Method)이다.”

RicePunchb's Garden

탐색기

Markov Decision Process

Markov Decision Process (MDP)

1. 개요

2. MDP의 5대 구성 요소 (Tuple)

2.1. 상태 집합 (, State Space)

2.2. 행동 집합 (, Action Space)

2.3. 전이 확률 함수 (, Transition Probability)

2.4. 보상 함수 (, Reward Function)

2.5. 할인율 (, Discount Factor)

3. 에이전트의 목표 (Objective)

3.1. 반환값 (Return, )

3.2. 정책 (Policy, )

3.3. 목적 함수 (Objective Function)

4. 가치 함수 (Value Function)

4.1. 상태 가치 함수 (State-Value Function, )

4.2. 행동 가치 함수 (Action-Value Function, )

5. 벨만 방정식 (Bellman Equation)

6. Planning vs Learning

6.1. Planning (Dynamic Programming)

6.2. Reinforcement Learning (RL)

7. 요약

그래프 뷰

목차

백링크