마르코프 결정 과정(MDP) vs 마르코프 보상 과정(MRP)
마르코프 결정 과정(MDP: Markov Decision Process)은 마르코프 보상 과정(MRP: Markov Reward Process)에서 행동(Action)과 정책(Policy, π)이 추가된 확장된 개념이다.
MRP는 하나의 에피소드나 환경 전체의 가치를 계산하는 것이 목적이라면, MDP의 목적은 환경의 가치를 극대화하는 최적의 정책을 찾는 것이다.
아직은 다소 생소할 수 있지만, 핵심 개념은 "정책 결정"이다. 이는 강화학습에서 매우 중요한 요소이므로 꼭 기억해두자.
에이전트의 개념: MDP에서의 능동적 행동
MDP에서는 에이전트(Agent)라는 개념이 새로 도입된다.
확률 과정에서 꽃가루의 움직임을 관찰해 브라운 운동을 발견했던 것처럼, MDP에서는 이 꽃가루에 해당하는 존재가 바로 에이전트이다.
MRP나 일반 확률 과정에서도 상태(State)는 시간의 흐름에 따라 수동적으로 변화한다. 하지만 MDP에서는 에이전트가 정책(π)에 따라 행동(Action)을 선택하고, 그 결과로 상태가 변화하게 된다. 이처럼 MDP는 능동적인 의사결정 모델이다.
MDP 구성요소 한눈에 보기
1. 상태(State, S)
환경이 가질 수 있는 모든 상태의 집합.
2. 행동(Action, A)
에이전트가 특정 상태에서 선택할 수 있는 가능한 행위들. MDP는 행동이 유한한 경우가 일반적이다.
3. 정책(Policy, π)
특정 상태에서 어떤 행동을 선택할지 결정하는 확률 분포. 모든 행동 선택 확률의 합은 1이 된다.
4. 상태전이 확률(P)
상태 s에서 행동 a를 했을 때, 다음 상태 s'로 전이될 조건부 확률.
5. 보상 함수(R)
특정 상태에서 행동을 했을 때 받을 보상의 기대값.
6. 감가율(γ)
미래 보상을 얼마나 현재 가치로 환산할지를 결정하는 계수. 일반적으로 0 이상 1 이하의 값을 갖는다.
MDP에서의 정책: 확률적 행동 선택
MDP에서 정책은 행동을 선택하는 확률 분포이다.
예를 들어 어떤 상태에서 A 행동의 선택 확률이 60%, B 행동이 40%라면, 에이전트는 항상 A를 선택하는 것이 아니라, A를 선택할 가능성이 높은 것일 뿐이다.
이러한 확률적 선택은 MDP의 핵심적인 특징 중 하나로, 이후 배우게 될 탐험(Exploration) 개념과도 깊은 관련이 있다.
MRP와 MDP의 차이: 예제를 통해 직관적으로 이해하기
간단한 예를 통해 MRP와 MDP의 차이를 살펴보자.
● MRP 예제
- 타임스텝 t1: 상태 S1
- 타임스텝 t2: 상태 S2, S3
- 상태전이 확률: P(S2 | S1) = 0.7, P(S3 | S1) = 0.3
→ 상태 S2에 도달할 확률은 단순히 전이 확률 0.7
● MDP 예제
- S1에서 선택 가능한 행동: A1 → S2, A2 → S3
- 정책: π(A1 | S1) = 0.4, π(A2 | S1) = 0.6
- 상태전이 확률: A1 선택 시 S2로 갈 확률 = 0.7
→ S2 도달 확률 = π(A1 | S1) × P(S2 | S1, A1) + π(A2 | S1) × P(S2 | S1, A2)
→ = 0.4 × 0.7 + 0.6 × 0.7 = 0.7
결국, MDP와 MRP의 결과는 같지만, MDP에서는 정책이라는 확률적 의사결정 요소가 추가되기 때문에 더 정교한 제어가 가능하다.
정책을 반영한 상태전이 확률과 보상 함수
MDP에서 중요한 것은 단순한 상태전이나 보상이 아니라, 정책을 반영한 전이 확률과 보상 기대값이다.
● 상태전이 매트릭스 계산 방법
현재 상태에서 가능한 모든 행동에 대해:
- 해당 행동을 선택할 확률(정책)
- 그 행동을 했을 때의 전이 확률
→ 이 둘을 곱해서 모두 더한 것이 정책 반영 상태전이 확률이다.
● 보상 함수 계산 방법
- 상태 s에서 가능한 모든 행동에 대해
- 행동 선택 확률 × 행동별 보상의 기대값
→ 이를 더하면 해당 상태에서의 기대 보상값이 된다.
이 두 요소는 MDP를 MRP 형태로 변환하여 가치 계산을 가능하게 만드는 핵심 도구이다.
결론: MDP는 정책 기반 의사결정 모델의 핵심
- MDP는 행동과 정책을 통해 능동적인 의사결정을 표현할 수 있는 수학적 모델이다.
- 정책과 상태전이, 보상 함수는 MDP를 이해하고 활용하는 데 있어 핵심 개념이다.
- 강화학습 알고리즘(Q-learning, PPO 등)을 제대로 이해하려면 MDP의 구조를 확실히 이해해야 한다.