온 폴리시(On Policy)와 오프 폴리시(Off Policy)

우리가 지금까지 살펴본 대부분의 강화학습 알고리즘, 특히 TD와 SARSA 같은 알고리즘은 온 폴리시(On-policy) 방식에 기반한다. 온 폴리시란, 학습에 사용되는 정책과 실제 행동을 선택하는 정책이 동일한 경우를 의미한다. 즉, 상태에서 어떤 행동을 할지를 결정하는 정책 π와, 이 정책의 성능을 평가하고 개선하는 데 사용하는 정책이 같은 것이다.

예를 들어 SARSA에서는 ε-greedy와 같은 전략을 사용해 행동을 선택한다. 여기서 ε는 탐험을 위한 무작위 선택의 비율이고, 1-ε의 확률로는 현재까지 가장 좋은 행동을 선택한다. 이렇게 행동을 선택한 뒤, 한 타임스텝을 더 진행해서 다음 상태에서의 가치를 계산하고, 이를 바탕으로 정책을 평가한다. 그리고 가장 Q값이 높은 방향으로 정책을 조금씩 수정하며, 이 과정을 반복하게 된다.

하지만 이 온 폴리시 방식에는 두 가지 중요한 문제가 있다.

첫째, 한 번의 경험은 오직 한 번만 학습에 사용되고, 이후에는 버려진다는 점이다. 이로 인해 경험의 재사용이 불가능해져 학습 효율이 낮아진다.

둘째, ε-greedy처럼 정해진 방식으로만 정책을 탐험하고 개선하기 때문에, 다양한 정책을 충분히 실험하지 못한다는 한계가 있다.

오프 폴리시

이러한 문제를 해결하기 위해 등장한 것이 바로 오프 폴리시(Off-policy) 학습 방식이다. 오프 폴리시에서는 두 개의 정책을 분리해서 사용한다.

하나는 행동을 선택하고 데이터를 수집하는 데 사용되는 행동 정책(behavior policy)인 μ(a|s)이다. 다른 하나는 정책을 평가하고 점진적으로 최적화하는 타겟 정책(target policy)인 π(a|s)이다.

이처럼 오프 폴리시는 π와 μ를 분리하여, 한 정책(μ)이 다양한 행동을 시도하며 경험을 쌓고, 다른 정책(π)이 이 경험을 바탕으로 보다 나은 방향으로 정책을 학습할 수 있게 만든다. 결과적으로 경험을 재사용할 수 있으며, 더 다양한 정책을 실험하고 평가할 수 있는 유연성을 갖게 된다.

정리하자면, 온 폴리시는 학습에 사용되는 정책과 행동 정책이 같고, 오프 폴리시는 이 둘이 다르다. 오프 폴리시는 더 높은 효율성과 일반화 가능성을 갖는 방식으로, 이후에 등장할 Q-learning 같은 알고리즘이 대표적인 예다.

온 폴리시(On Policy)와 오프 폴리시(Off Policy)

댓글 쓰기