예를 들어 SARSA에서는
ε-greedy와 같은 전략을 사용해 행동을 선택한다. 여기서 ε는 탐험을 위한 무작위 선택의 비율이고, 1-ε의 확률로는 현재까지
가장 좋은 행동을 선택한다. 이렇게 행동을 선택한 뒤, 한
타임스텝을 더 진행해서 다음 상태에서의 가치를 계산하고, 이를 바탕으로 정책을 평가한다. 그리고 가장 Q값이 높은 방향으로 정책을 조금씩 수정하며, 이 과정을 반복하게 된다.
하지만 이 온 폴리시 방식에는 두 가지 중요한 문제가 있다.
첫째, 한 번의 경험은 오직 한 번만 학습에 사용되고, 이후에는 버려진다는 점이다. 이로 인해 경험의 재사용이 불가능해져
학습 효율이 낮아진다.
둘째, ε-greedy처럼 정해진 방식으로만 정책을 탐험하고 개선하기
때문에, 다양한 정책을 충분히 실험하지 못한다는 한계가 있다.
오프 폴리시
이러한 문제를 해결하기 위해 등장한 것이 바로 오프 폴리시(Off-policy)
학습 방식이다. 오프 폴리시에서는 두 개의 정책을 분리해서 사용한다.
하나는 행동을 선택하고 데이터를 수집하는 데 사용되는 행동 정책(behavior
policy)인 μ(a|s)이다. 다른 하나는
정책을 평가하고 점진적으로 최적화하는 타겟 정책(target policy)인 π(a|s)이다.
이처럼 오프 폴리시는 π와 μ를
분리하여, 한 정책(μ)이 다양한 행동을 시도하며 경험을
쌓고, 다른 정책(π)이 이 경험을 바탕으로 보다 나은 방향으로
정책을 학습할 수 있게 만든다. 결과적으로 경험을 재사용할 수 있으며,
더 다양한 정책을 실험하고 평가할 수 있는 유연성을 갖게 된다.
정리하자면, 온 폴리시는 학습에 사용되는 정책과 행동 정책이 같고, 오프 폴리시는 이 둘이 다르다. 오프 폴리시는 더 높은 효율성과
일반화 가능성을 갖는 방식으로, 이후에 등장할 Q-learning 같은
알고리즘이 대표적인 예다.