이 그림은 강화학습에서 상태 가치 함수를 계산하는 두 가지 접근 방식인 MDP(마르코프 결정 과정) 방식과 MC(몬테카를로) 방식의 차이를 수식과 함께 단계적으로 보여주는 자료이다. 각각의 수식을 번호 순서대로 살펴보며, 그 의미를 하나씩 설명해보자.
(1) 상태 가치 함수의 정의
(MDP 방식)
가장 처음에 나오는 식은 상태 가치 함수의 정의를 나타낸다. 이는
상태 s에서 시작해서 정책 π를 따랐을 때 앞으로 받게 될
보상의 총합 Gt의 기대값으로 정의된다. 즉, “지금 이 상태에 있을 때 앞으로 받을 보상이 얼마나 될까?”라는
질문에 대한 평균적인 답을 구하는 수식이다.
(2)-1 행동을 고려한 확장
이제 상태 가치 함수를 더 구체적으로 확장해 보자. 정책 π에 따라 상태 s에서 어떤 행동
a를 선택할 확률이 주어진다. 그에 따라 얻는 보상과 다음 상태로의 전이 확률을 고려해야
한다. 이때 (2)-1에서는 가능한 모든 행동을
고려하며, 각 행동을 선택할 확률 π(a∣s))과 그 행동에서 받는 보상 R을를 함께 계산한다.
②-2 상태 전이를 고려한 확장
한 발짝 더 나아가면, 행동 a를
했을 때 도달할 수 있는 모든 다음 상태 s′′도 함께 고려해야 한다. 다음 상태로 전이될 확률 P와 그 상태의 가치 vπ(s′)를 곱한 후, 감가율 γ 를 적용해 더한다.
이를 통해 우리는 현재 상태의 가치가 지금 받을 보상과 미래에 받을 보상의 합임을 알 수 있다.
이 과정 전체가 바로 MDP 방식의 상태 가치 함수 계산이며, 이는 환경의 모든 정보를 알고 있어야 가능한 계산이다.
③ 몬테카를로 방식의 근사
반면 몬테카를로(MC) 방식은 환경 정보를 알 수 없을 때 사용하는
방법이다. 여기서는 상태 가치 함수를 수학적으로 계산하지 않고, 여러
번의 실제 경험을 평균해서 추정한다. 즉, 상태
s에서 시작했을 때의 반환값 Gt를 계속 쌓아가며 그 평균을
구하면, 충분히 많은 에피소드를 수행했을 때 참된 상태 가치 함수에 가까워진다.
④ 에피소드 수행 후 누적 카운트 증가
몬테카를로 방법에서는 에이전트가 한 번 에피소드를 끝낼 때마다, 해당
상태를 방문한 횟수인 N(s)를 하나 증가시킨다. 이 값은
나중에 평균을 구할 때 분모로 사용된다.
⑤ 반환값 누적 저장
그 에피소드에서 실제로 받은 보상의 총합, 즉 반환값 Gt를 해당 상태의 누적 반환값 S(s)에 더해 저장한다.
⑥ 평균 반환값 계산
이제 누적된 보상의 총합 S(s)을 해당 상태를 방문한 횟수 N(s)로 나누면, 그 상태에서 기대할 수 있는 평균 보상, 즉 상태 가치 함수 V(s)를 구할 수 있다.
이렇게 정리된 두 방식은 중요한 차이를 가진다. MDP 방식은 환경
모델이 있어야 정확한 계산이 가능하지만, 몬테카를로 방식은 환경을 알 필요 없이 경험을 통해 점점 더
정확한 추정치를 만들어낸다. 따라서 정보가 충분한 경우에는 MDP 방식이
유리하고, 정보가 부족한 모델 프리 환경에서는 몬테카를로 방식이 더욱 현실적인 대안이 된다.