몬테카를로 방법: 수식 이해(2/4)
이 그림은 강화학습에서 상태 가치 함수를 계산하는 두 가지 접근 방식인 MDP( 마르코프 결정 과정 ) 방식과 MC( 몬테카를로 ) 방식의 차이를 수식과 함께 단계적으로 보여주는 자료이다 . 각각의 수식을 번호 순서대로 살펴보며 , 그 의미를 하나씩 설명해보자 . (1) 상태 가치 함수의 정의 (MDP 방식 ) 가장 처음에 나오는 식은 상태 가치 함수의 정의를 나타낸다 . 이는 상태 s 에서 시작해서 정책 π 를 따랐을 때 앞…