마르코프 보상 과정(MRP)

1. 마르코프 보상 과정(MRP)란?

마르코프 보상 과정(Markov Reward Process, MRP)은 마르코프 연쇄(Markov Chain)에 보상(Reward)과 감가율(Discount Factor, γ)을 추가한 모델입니다.


기존 마르코프 연쇄(Markov Chain)현재 상태(State)에서 다음 상태로 전이될 확률(Transition Probability, P)만을 고려합니다.

하지만 마르코프 보상 과정(MRP)은 각 상태 변화가 얼마나 가치 있는지 평가할 수 있도록 보상(Reward, R)과 감가율(γ)을 추가합니다.

즉, 단순한 상태 전이가 아니라, 상태 변화에 따른 보상까지 고려하는 것이 MRP의 핵심입니다.

  • 예제: 날씨 모델에서 마르코프 연쇄와 MRP 비교
마르코프 연쇄: “맑음” → “비”로 바뀔 확률이 40%
MRP: “맑음” 상태에서는 보상 +1, “비” 상태에서는 보상 -1 → 맑은 날씨가 더 가치 있음

이러한 개념은 1971년 로날드 아서 하워드(Ronald Arthur Howard) 가 출판한 책에서 처음 소개되었으며, 이후 강화 학습, 최적 의사결정, 금융 예측 등 다양한 분야에서 활용되고 있습니다.

2. 마르코프 보상 과정(MRP)의 구성 요소

MRP는 기존 마르코프 연쇄보상과 감가율이 추가된 4가지 요소로 구성됩니다.

① 상태 집합 (State Set, S)

MRP에서 시스템이 가질 수 있는 모든 상태들의 모음입니다.

  • 예제: 날씨 상태 모델

S = {맑음, 비, 눈}

② 상태 전이 확률 (Transition Probability, P)

현재 상태에서 다음 상태로 이동할 확률을 나타냅니다.

  • 수식 표현:P(s′∣s)여기서,

s = 현재 상태

s′ = 다음 상태

P(s′∣s) = 현재 상태 s에서 다음 상태 s′로 전이될 확률

  • 예제: 날씨 상태에서 전이 확률

P(비 | 맑음) = 0.4 (맑음에서 비가 될 확률 40%)

P(맑음 | 비) = 0.6 (비에서 맑음이 될 확률 60%)

③ 보상 함수 (Reward Function, R)

특정 상태에 도달했을 때 얻는 보상을 나타냅니다.

  • 수식 표현:R(s)

R(s) = 상태 s에 대한 보상 값

  • 예제: 날씨 상태에서 보상 설정

R(맑음) = +1 (맑은 날씨를 선호)

R(비) = -1 (비 오는 날을 싫어함)

④ 감가율 (Discount Factor, γ)

미래 보상의 가치를 현재와 비교하여 얼마나 줄여서 평가할지 결정하는 요소입니다.

  • 수식 표현:0≤γ≤10

γ=1 → 먼 미래의 보상을 현재와 동일하게 평가 (장기적인 전략)

γ=0 → 현재 보상만 고려하고 미래 보상은 무시 (단기적인 전략)

  • 예제:

γ=0.9 → 미래 보상을 현재보다 90%만큼 중요하게 여김

γ=0.5 → 미래 보상을 현재의 50%만큼 중요하게 여김

 

3. 상태 가치 함수 (State Value Function, V)와 벨만 방정식

MRP에서는 각 상태가 얼마나 가치 있는지를 평가하는 것이 중요합니다. 이를 위해 상태 가치 함수(State Value Function, V) 를 사용합니다.

① 상태 가치 함수 V(s) 정의

각 상태에서 얻을 수 있는 기대 보상의 총합을 계산하는 함수입니다.

  • 수식 표현: V(s)=E[R(s)+γV(s′)]
E = 기대값(평균)
R(s) = 현재 상태 s에서 얻는 보상
γ = 감가율
V(s′) = 다음 상태 s′의 가치
  • 예제: 날씨 모델에서 상태 가치 계산
R(맑음) = +1, R(비) = -1
P(비 | 맑음) = 0.4, P(맑음 | 맑음) = 0.6
감가율 γ=0.9
V(맑음)=1+0.9[0.6V(맑음)+0.4V(비)]

이 식을 벨만 방정식(Bellman Equation) 이라고 합니다.


4. 왜 보상과 감가율이 필요할까?

기존 마르코프 연쇄는 상태가 확률적으로 변화하는 과정만 나타내고, 상태 변화가 좋은 것인지 나쁜 것인지는 알 수 없습니다. 하지만 MRP에서는 보상 함수(R)와 감가율(γ) 을 도입함으로써, 특정 상태 변화가 얼마나 가치 있는지를 평가할 수 있습니다.

  • 예제: 강화 학습에서 로봇이 목표 지점까지 이동하는 문제
보상 함수(R)가 없으면, 로봇은 그냥 무작위로 이동
보상 함수(R)가 있으면, 목표 지점에 가까워질수록 높은 보상을 주어 최적의 경로 학습 가능
감가율(γ)을 조절하면, 먼 미래의 보상을 중요하게 고려할지 여부를 조절 가능

5. 마르코프 보상 과정(MRP)의 활용 분야

MRP는 다양한 분야에서 활용됩니다.

강화 학습 (Reinforcement Learning)

  • MRP는 강화 학습의 기본 개념으로, 에이전트(Agent)가 환경(Environment)에서 보상을 기반으로 최적의 행동을 학습하는 데 활용됩니다.

최적 의사결정 (Optimal Decision Making)

  • 기업이 투자 결정을 내릴 때, 장기적으로 가장 높은 기대 이익을 계산하는 데 사용됩니다.

금융 예측 (Financial Forecasting)

  • 주식 시장에서 특정 투자 전략의 장기적 보상을 평가하는 데 활용됩니다.

게임 AI 개발

  • 게임에서 AI가 보상을 기반으로 전략을 최적화하는 데 사용됩니다.

6. 마무리 – MRP가 중요한 이유

마르코프 보상 과정(MRP)은 마르코프 연쇄에서 한 단계 발전한 개념으로, 상태 변화의 가치를 평가할 수 있는 강력한 모델입니다. 이를 활용하면 AI 학습, 의사결정 최적화, 금융 예측 등 다양한 문제 해결이 가능합니다.

댓글 쓰기

Please Select Embedded Mode To Show The Comment System.*

다음 이전