1. 마르코프 보상 과정(MRP)란?
마르코프 보상 과정(Markov Reward Process, MRP)은 마르코프 연쇄(Markov Chain)에 보상(Reward)과 감가율(Discount Factor, γ)을 추가한 모델입니다.
기존 마르코프 연쇄(Markov Chain) 는 현재 상태(State)에서 다음 상태로 전이될 확률(Transition Probability, P)만을 고려합니다.
하지만 마르코프 보상 과정(MRP)은 각 상태 변화가 얼마나 가치 있는지 평가할 수 있도록 보상(Reward, R)과 감가율(γ)을 추가합니다.
즉, 단순한 상태 전이가 아니라, 상태 변화에 따른 보상까지 고려하는 것이 MRP의 핵심입니다.
- 예제: 날씨 모델에서 마르코프 연쇄와 MRP 비교
마르코프 연쇄: “맑음” → “비”로 바뀔 확률이 40%MRP: “맑음” 상태에서는 보상 +1, “비” 상태에서는 보상 -1 → 맑은 날씨가 더 가치 있음
이러한 개념은 1971년 로날드 아서 하워드(Ronald Arthur Howard) 가 출판한 책에서 처음 소개되었으며, 이후 강화 학습, 최적 의사결정, 금융 예측 등 다양한 분야에서 활용되고 있습니다.
2. 마르코프 보상 과정(MRP)의 구성 요소
MRP는 기존 마르코프 연쇄에 보상과 감가율이 추가된 4가지 요소로 구성됩니다.
① 상태 집합 (State Set, S)
MRP에서 시스템이 가질 수 있는 모든 상태들의 모음입니다.
- 예제: 날씨 상태 모델
S = {맑음, 비, 눈}
② 상태 전이 확률 (Transition Probability, P)
현재 상태에서 다음 상태로 이동할 확률을 나타냅니다.
- 수식 표현:P(s′∣s)여기서,
s = 현재 상태
s′ = 다음 상태
P(s′∣s) = 현재 상태 s에서 다음 상태 s′로 전이될 확률
- 예제: 날씨 상태에서 전이 확률
P(비 | 맑음) = 0.4 (맑음에서 비가 될 확률 40%)
P(맑음 | 비) = 0.6 (비에서 맑음이 될 확률 60%)
③ 보상 함수 (Reward Function, R)
특정 상태에 도달했을 때 얻는 보상을 나타냅니다.
- 수식 표현:R(s)
R(s) = 상태 s에 대한 보상 값
- 예제: 날씨 상태에서 보상 설정
R(맑음) = +1 (맑은 날씨를 선호)
R(비) = -1 (비 오는 날을 싫어함)
④ 감가율 (Discount Factor, γ)
미래 보상의 가치를 현재와 비교하여 얼마나 줄여서 평가할지 결정하는 요소입니다.
- 수식 표현:0≤γ≤10
γ=1 → 먼 미래의 보상을 현재와 동일하게 평가 (장기적인 전략)
γ=0 → 현재 보상만 고려하고 미래 보상은 무시 (단기적인 전략)
- 예제:
γ=0.9 → 미래 보상을 현재보다 90%만큼 중요하게 여김
γ=0.5 → 미래 보상을 현재의 50%만큼 중요하게 여김
3. 상태 가치 함수 (State Value Function, V)와 벨만 방정식
MRP에서는 각 상태가 얼마나 가치 있는지를 평가하는 것이 중요합니다. 이를 위해 상태 가치 함수(State Value Function, V) 를 사용합니다.
① 상태 가치 함수 V(s) 정의
각 상태에서 얻을 수 있는 기대 보상의 총합을 계산하는 함수입니다.
- 수식 표현: V(s)=E[R(s)+γV(s′)]
E = 기대값(평균)R(s) = 현재 상태 s에서 얻는 보상γ = 감가율V(s′) = 다음 상태 s′의 가치
- 예제: 날씨 모델에서 상태 가치 계산
R(맑음) = +1, R(비) = -1
P(비 | 맑음) = 0.4, P(맑음 | 맑음) = 0.6
감가율 γ=0.9
V(맑음)=1+0.9[0.6V(맑음)+0.4V(비)]
이 식을 벨만 방정식(Bellman Equation) 이라고 합니다.
4. 왜 보상과 감가율이 필요할까?
기존 마르코프 연쇄는 상태가 확률적으로 변화하는 과정만 나타내고, 상태 변화가 좋은 것인지 나쁜 것인지는 알 수 없습니다. 하지만 MRP에서는 보상 함수(R)와 감가율(γ) 을 도입함으로써, 특정 상태 변화가 얼마나 가치 있는지를 평가할 수 있습니다.
- 예제: 강화 학습에서 로봇이 목표 지점까지 이동하는 문제
보상 함수(R)가 없으면, 로봇은 그냥 무작위로 이동보상 함수(R)가 있으면, 목표 지점에 가까워질수록 높은 보상을 주어 최적의 경로 학습 가능감가율(γ)을 조절하면, 먼 미래의 보상을 중요하게 고려할지 여부를 조절 가능
5. 마르코프 보상 과정(MRP)의 활용 분야
MRP는 다양한 분야에서 활용됩니다.
✅ 강화 학습 (Reinforcement Learning)
- MRP는 강화 학습의 기본 개념으로, 에이전트(Agent)가 환경(Environment)에서 보상을 기반으로 최적의 행동을 학습하는 데 활용됩니다.
✅ 최적 의사결정 (Optimal Decision Making)
- 기업이 투자 결정을 내릴 때, 장기적으로 가장 높은 기대 이익을 계산하는 데 사용됩니다.
✅ 금융 예측 (Financial Forecasting)
- 주식 시장에서 특정 투자 전략의 장기적 보상을 평가하는 데 활용됩니다.
✅ 게임 AI 개발
- 게임에서 AI가 보상을 기반으로 전략을 최적화하는 데 사용됩니다.
6. 마무리 – MRP가 중요한 이유
마르코프 보상 과정(MRP)은 마르코프 연쇄에서 한 단계 발전한 개념으로, 상태 변화의 가치를 평가할 수 있는 강력한 모델입니다. 이를 활용하면 AI 학습, 의사결정 최적화, 금융 예측 등 다양한 문제 해결이 가능합니다.