몬테카를로 방법: 수식 이해(2/4)


이 그림은 강화학습에서 상태 가치 함수를 계산하는 두 가지 접근 방식인 MDP(마르코프 결정 과정) 방식과 MC(몬테카를로) 방식의 차이를 수식과 함께 단계적으로 보여주는 자료이다. 각각의 수식을 번호 순서대로 살펴보며, 그 의미를 하나씩 설명해보자.

(1) 상태 가치 함수의 정의 (MDP 방식)

가장 처음에 나오는 식은 상태 가치 함수의 정의를 나타낸다. 이는 상태 s에서 시작해서 정책 π를 따랐을 때 앞으로 받게 될 보상의 총합 Gt​기대값으로 정의된다. , “지금 이 상태에 있을 때 앞으로 받을 보상이 얼마나 될까?”라는 질문에 대한 평균적인 답을 구하는 수식이다.

(2)-1 행동을 고려한 확장

이제 상태 가치 함수를 더 구체적으로 확장해 보자. 정책 π에 따라 상태 s에서 어떤 행동 a를 선택할 확률이 주어진다. 그에 따라 얻는 보상과 다음 상태로의 전이 확률을 고려해야 한다. 이때 (2)-1에서는 가능한 모든 행동을 고려하며, 각 행동을 선택할 확률 π(as))과 그 행동에서 받는 보상 R을를 함께 계산한다.

②-2 상태 전이를 고려한 확장

한 발짝 더 나아가면, 행동 a를 했을 때 도달할 수 있는 모든 다음 상태 s′′도 함께 고려해야 한다. 다음 상태로 전이될 확률 P​와 그 상태의 가치 vπ(s′)를 곱한 후, 감가율 γ 를 적용해 더한다.
이를 통해 우리는 현재 상태의 가치가 지금 받을 보상과 미래에 받을 보상의 합임을 알 수 있다.

이 과정 전체가 바로 MDP 방식의 상태 가치 함수 계산이며, 이는 환경의 모든 정보를 알고 있어야 가능한 계산이다.

몬테카를로 방식의 근사

반면 몬테카를로(MC) 방식은 환경 정보를 알 수 없을 때 사용하는 방법이다. 여기서는 상태 가치 함수를 수학적으로 계산하지 않고, 여러 번의 실제 경험을 평균해서 추정한다. , 상태 s에서 시작했을 때의 반환값 Gt​를 계속 쌓아가며 그 평균을 구하면, 충분히 많은 에피소드를 수행했을 때 참된 상태 가치 함수에 가까워진다.

에피소드 수행 후 누적 카운트 증가

몬테카를로 방법에서는 에이전트가 한 번 에피소드를 끝낼 때마다, 해당 상태를 방문한 횟수인 N(s)를 하나 증가시킨다. 이 값은 나중에 평균을 구할 때 분모로 사용된다.

반환값 누적 저장

그 에피소드에서 실제로 받은 보상의 총합, 즉 반환값 Gt​를 해당 상태의 누적 반환값 S(s)에 더해 저장한다.

평균 반환값 계산

이제 누적된 보상의 총합 S(s)을 해당 상태를 방문한 횟수 N(s)로 나누면, 그 상태에서 기대할 수 있는 평균 보상, 즉 상태 가치 함수 V(s)를 구할 수 있다.

이렇게 정리된 두 방식은 중요한 차이를 가진다. MDP 방식은 환경 모델이 있어야 정확한 계산이 가능하지만, 몬테카를로 방식은 환경을 알 필요 없이 경험을 통해 점점 더 정확한 추정치를 만들어낸다. 따라서 정보가 충분한 경우에는 MDP 방식이 유리하고, 정보가 부족한 모델 프리 환경에서는 몬테카를로 방식이 더욱 현실적인 대안이 된다.

댓글 쓰기

Please Select Embedded Mode To Show The Comment System.*

다음 이전